Barcelona, España
OBJETIVO. Valorar la capacidad de varios sistemas de inteligencia artificial (IA) para acertar la respuesta correcta a preguntas de toxicología que se han formulado en las convocatorias del Ministerio de Sanidad para obtener plaza de médico-interno-residente (MIR), y compararla con los aciertos que a las mismas preguntas ha ofrecido un grupo de expertos en toxicología clínica. MATERIAL Y MÉTODOS. Se revisaron los cuestionarios de los exámenes MIR de las cinco últimas convocatorias (2019-2023) y se seleccionaron las preguntas de toxicología. Estas preguntas se pasaron a siete chatbots de IA (ChatGPT, Gemini, Copilot, Luzia, Claude, Deepseek y Le Chat), solicitando las respuestas correctas. Las mismas preguntas se formularon también a un grupo de toxicólogos. RESULTADOS. Se incluyeron 44 preguntas. El tiempo cronometrado para completar este examen por las IA fue de 1,01 (0,82-1,52) minutos, mientras que el tiempo estimado que precisaron los toxicólogos fue de 42 (28,5-53,5) minutos (p < 0,001). Las IA acertaron una mediana de 41 (39-42) respuestas, mientras que la mediana de respuestas acertadas por el grupo de toxicólogos fue de 32 (2636) (p < 0,001). En el grupo de toxicólogos no se encontraron diferencias en los aciertos en función de su edad, sexo o especialidad médica. Tampoco se han encontrado diferencias en los aciertos entre preguntas teóricas y casos clínicos. CONCLUSIONES. Los chatbots de IA contestan las preguntas de toxicología de los exámenes MIR más rápidamente y obtienen mejores resultados que un grupo de toxicólogos.
OBJECTIVE. To assess the ability of several artificial intelligence (AI) systems to correctly answer toxicology questions from Spain’s Médico Interno Residente (MIR) licensing exams and to compare their accuracy with that of a group of clinical toxicologists. MATERIAL AND METHODS. We selected toxicology-related questions from the MIR exams (2019–2023) and showed them to 7 AI chatbots (ChatGPT, Gemini, Copilot, Luzia, Claude, Deepseek, and Le Chat) and to a group of clinical toxicologists. The number of correct answers was recorded for each participant. RESULTS. A total of 44 questions were included. AI systems completed the exam in a median of 1.01 (0.82–1.52) minutes vs 42.00 (28.50–53.50) minutes for toxicologists (P < .001). AI achieved a median of 41 (39–42) correct answers while toxicologists achieved 32 answers (26–36) (P < .001). No differences were found among toxicologists by age, sex, or specialty, nor between theoretical and case report-based questions. CONCLUSIONS. AI chatbots answered toxicology questions from MIR exams faster and with higher accuracy than a group of clinical toxicologists.