Turquía
Objetivo: El objetivo de esta investigación fue comparar exhaustivamente la precisión y capacidad de respuesta de la GPT-3.5 y la GPT-4 en el ámbito de la Ortopedia y la Traumatología. En concreto, nuestro objetivo era evaluar su capacidad para proporcionar respuestas precisas a una serie de preguntas de muestra derivadas del examen del European Board of Orthopedics and Traumatology (EBOT).
Métodos: El estudio se llevó a cabo durante el periodo comprendido entre el 10 de mayo de 2023 y el 15 de mayo de 2023.
Consistió en un análisis comparativo de dos modelos lingüísticos de IA, a saber, GPT-3.5 y GPT-4, específicamente en el campo de la ortopedia y la traumatología y centrándose en preguntas de muestra extraídas del examen EBOT. Se recopilaron dos conjuntos distintos, cada uno de los cuales contenía 80 preguntas de muestra (en total 160 preguntas), a partir del conjunto de preguntas de muestra disponibles del EBOT.
Resultados: Se incluyeron en el estudio un total de 160 preguntas, 80 preguntas de cada grupo. En el ámbito de la Ortopedia general, la GPT-4 demostró una mayor tasa de aciertos (75%) en comparación con la GPT-3.5 (45%) (p=0,053). En el ámbito de la Traumatología, la GPT-4 obtuvo un notable índice de éxito del 80%, en comparación con la GPT-3.5 (p=0,010). En Cirugía Ortopédica Oncológica, ambos modelos mostraron una tendencia similar (p=0,057). En general, GPT-4 mostró un rendimiento superior en todos los dominios, con una tasa de éxito acumulada del 75% en comparación con el 43,75% de GPT-3.5 (p<0,001).
Al considerar las respuestas globales, se determinó que la Odds Ratio entre la GPT-4 y la GPT-3.5 era de 3,8.
Conclusiones: Sobre la base de los resultados de este estudio comparativo, se puede concluir firmemente que la GPT-4 demuestra una notable superioridad sobre la GPT-3.5 a la hora de abordar eficazmente las preguntas de muestra del examen EBOT.
Objective: The objective of this investigation was to comprehensively compare the precision and responsiveness of GPT-3.5 and GPT-4 within the domain of Orthopedics and Traumatology. Specifically, our aim was to evaluate their capacity to provide accurate answers to a series of sample questions derived from the European Board of Orthopedics and Traumatology (EBOT) exam.
Methods: The study was conducted over the period from 10th May 2023 to 15th May 2023. It involved a comparative analysis of two AI language models, namely GPT-3.5 and GPT-4, specifically in the field of Orthopedics and Traumatology and with a focus on sample questions extracted from the EBOT exam. Two separate sets, each containing 80 sample questions (totaling 160 questions), were compiled from the pool of available EBOT sample questions.
Results: A total of 160 questions were included in the study, 80 questions from each group. In the field of General Orthopedics, GPT-4 demonstrated a higher success rate (75%) compared to GPT-3.5 (45%) (p=0.053). In the Traumatology domain, GPT-4 delivered a notable success rate of 80%, compared to GPT-3.5’s (p=0.010). For Oncological Orthopedic Surgery, both models showed a similar trend (P=0.057). Overall, GPT-4 exhibited superior performance across all domains, with a cumulative success rate of 75% as compared to GPT-3.5’s 43.75% (p<0.001). When considering the overall responses, the Odds Ratio between GPT-4 and GPT-3.5 was determined to be 3.8.
Conclusions: Based on the findings of this comparative study, it can be firmly concluded that GPT-4 demonstrates a remarkable superiority over GPT-3.5 in effectively addressing the EBOT exam sample questions.