Luis Miguel Rojo Bofill, Gràcia Ribes Jordán, Llanos Monedero Carrasco, Juan Pablo Carrasco Picazo, Vicente Balanzá Martínez, Lucas Giner, Eduardo Jesús Aguilar García Iturrospe, Yavuz Selim Kıyak
Resumen Introducción El uso de modelos de lenguaje de gran tamaño (LLMs) permite la creación de preguntas de opción múltiple (MCQs). Este estudio evalúa el desempeño de los LLMs en la generación de MCQs basadas en casos clínicos psiquiátricos, centrándose en la influencia del modelo utilizado y en la especificidad del prompt. Material y métodos Se realizaron dos experimentos. En el Experimento 1, se emplearon ChatGPT-3.5 y ChatGPT-4 con un prompt genérico. En el Experimento 2, se utilizó ChatGPT-4o para comparar el prompt genérico con una versión específica para psiquiatría. Se generaron 90 preguntas por experimento (45 por condición), equilibradas según niveles de dificultad. Un panel de profesores de psiquiatría evaluó la precisión diagnóstica y dificultad de las preguntas. Resultados En el Experimento 1, tanto ChatGPT-3.5 como ChatGPT-4 mostraron alta concordancia diagnóstica con los expertos (κ = 0.889 y κ = 0.703), pero escasa correlación con la dificultad prevista (ρ = 0.104, p = .496; ρ = −0.087, p = .57). En el Experimento 2, el prompt específico de psiquiatría con ChatGPT-4o produjo MCQs más precisas (κ = 0.731 y κ = 0.624) y mayores correlaciones entre la dificultad prevista y la evaluada (ρ = 0.630, p < .001; ρ = 0.436, p < .001). También se observó una mayor inclusión de información clínica y diversidad diagnóstica. Conclusión Los LLMs pueden generar MCQs en psiquiatría de forma eficaz, especialmente cuando se emplean prompts específicos. El prompt específico desarrollado ofrece una herramienta útil en educación médica.
Introduction The use of large language models (LLMs) can assist in creating Multiple-Choice Questions (MCQs) for enhancing psychiatric education. This study evaluates the performance of LLMs in generating psychiatry case-based MCQs, focusing on the influence of the model used and the specificity of the prompt. Material and methods Two experiments were carried out. In Experiment 1, ChatGPT-3.5 and ChatGPT-4 were used with a general-purpose prompt. In Experiment 2, ChatGPT-4o was used to compare the generic prompt with a psychiatry-specific version. A total of 90 questions were generated in each experiment (45 per condition), balanced across low, moderate, and high difficulty levels. A panel of psychiatry professors assessed the questions for diagnostic accuracy and difficulty. Results In Experiment 1, both ChatGPT-3.5 and ChatGPT-4 showed high diagnostic agreement with experts (κ = 0.889 and κ = 0.703), but little correlation with intended difficulty (ρ = 0.104, p = .496; ρ = −0.087, p = .57). In Experiment 2, the psychiatry-specific prompt with ChatGPT-4o yielded more accurate MCQs (κ = 0.731 and κ = 0.624) and stronger correlations between intended and expert-rated difficulty (ρ = 0.630, p < .001; ρ = 0.436, p < .001). It also improved the inclusion of relevant clinical information and diagnostic diversity. Conclusion LLMs can effectively generate psychiatry MCQs, especially when guided by domain-specific prompts. The psychiatry-specific prompt developed in this study is a useful tool for supporting medical education through high-quality, clinically relevant assessments.