Marta P. del Valle, Mariana Lauronce, M. José Monópoli, Pablo Badr, Alejandro G. Cragno, Marcelo García Diéguez
Introducción. La rápida expansión de la inteligencia artificial (IA) ha generado expectativas sobre su impacto en la educa- ción médica, particularmente en la evaluación. El objetivo de este estudio fue comparar la calidad de las respuestas gene- radas por IA generativa (ChatGPT-3) con la de estudiantes de Medicina y las respuestas esperadas diseñadas por docentes en un examen de aplicación de conocimientos.
Material y métodos. Es un estudio de corte transversal. Se emplearon 10 preguntas de un examen de respuesta abierta utilizado en primer año de Medicina (2023). Las respuestas generadas por ChatGPT-3 se ingresaron individualmente en sesiones nuevas, corregidas de forma anónima junto con las de 66 estudiantes y evaluadas por docentes expertos me- diante una escala global de cinco puntos. Asimismo, se analizaron aspectos relacionados con la calidad de las consignas, las claves de corrección y la adecuación de las puntuaciones.
Resultados. ChatGPT-3 obtuvo el 63% de la puntuación máxima, lo que coincide con el promedio de los estudiantes.
Aprobó en 7 de 10 preguntas, con la puntuación máxima en dos. Sus respuestas fueron más extensas (media de 282 frente a 185 palabras; p = 0,034). El 85% de las respuestas de IA se consideró total o parcialmente suficiente por los ex- pertos, con un acuerdo del 81,4%. Se identificaron deficiencias en las consignas, especialmente en la falta de claves claras y coherencia con las puntuaciones asignadas.
Conclusiones. ChatGPT-3 generó respuestas extensas y coherentes, de calidad comparable a las de los estudiantes. Su uso podría ser valioso para detectar inconsistencias en las consignas y claves de corrección, lo que aportaría mejoras en las evaluaciones en educación médica
Introduction. The rapid expansion of artificial intelligence (AI) has raised expectations regarding its impact on medical education, particularly in the field of assessment. The objective of this study was to compare the quality of responses ge- nerated by generative AI (ChatGPT-3) with those of medical students and with expected answers designed by faculty in a knowledge application exam.
Material and methods. Descriptive cross-sectional study. Ten open-ended questions from a knowledge application exam used in the first year of medical school (2023) were employed. ChatGPT-3 responses were entered individually in new sessions, then blindly evaluated alongside those of 66 students by expert faculty using a five-point global rating scale.
Additionally, aspects related to the quality of the prompts, scoring rubrics, and appropriateness of the assigned scores were analyzed.
Results. ChatGPT-3 produced coherent and detailed responses, with a global score comparable to the average performan- ce of the student group. Experts considered 85% of its answers to be sufficient. However, its performance varied across items, particularly when the questions included ambiguous wording or context-specific terminology.
Conclusions. ChatGPT-3 demonstrated acceptable performance in the context of open-ended medical assessments and may be useful for identifying poorly written prompts or misaligned scoring rubrics. Its integration into exam design and validation processes could contribute to improving the quality and validity of assessment tools. Further research is needed to explore the ethical, pedagogical, and practical implications of AI in medical education.