Póster P-488 — Capacidad de los modelos de lenguaje grandes en el conocimiento urológico avanzado: resultados en el examen EBU In-Service
Resumen
Introducción La inteligencia artificial está transformando la medicina como la conocemos. El examen EBU In Service es un examen de autoevaluación organizado por el consejo europeo de urología. Este estudio evalúa el desempeño de cuatro modelos de lenguaje grandes (LLM) en este examen.
Material y métodos Se seleccionaron los exámenes de los años 2023-2025. Los modelos evaluados fueron: ChatGPT (versión 4), Deepseek (versión actualizada), Gemini (versión 1.5) y Grok (versión 4, xAI). Las respuestas se calificaron como correctas o incorrectas según las claves oficiales del examen.
Resultados
ChatGPT EBU 2023 | ChatGPT EBU 2024 | ChatGPT EBU 2025 | Gemini EBU 2023 | Gemini EBU 2024 | Gemini EBU 2025 | |
Oncología | 24/28 | 20/22 | 24/26 | 25/28 | 22/22 | 22/26 |
Andrología | 8/10 | 8/11 | 9/10 | 8/10 | 8/11 | 10/10 |
Litiasis/Infecciones | 20/22 | 16/17 | 18/22 | 22/22 | 16/17 | 21/22 |
Funcional/HBP/Incontinencia | 15/15 | 11/13 | 13/17 | 15/15 | 12/13 | 15/17 |
Pediatría | 4/5 | 9/10 | 10/10 | 4/5 | 10/10 | 9/10 |
Miscelánea | 11/11 | 8/9 | 3/3 | 11/11 | 7/9 | 3/3 |
Cirugía/ Trauma | 10/13 | 22/23 | 17/17 | 9/11 | 23/23 | 16/17 |
Total | 92/105 | 94/105 | 94/105 | 94/105 | 99/105 | 98/105 |
GROK EBU 2023 | GROK EBU 2024 | GROK EBU 2025 | Deepseek EBU 2023 | Deepseek EBU 2024 | Deepseek EBU 2025 | |
Oncología | 22/28 | 18/22 | 20/26 | 23/28 | 20/22 | 19/26 |
Andrología | 8/10 | 8/11 | 10/10 | 5/10 | 8/11 | 9/10 |
Litiasis/Infecciones | 21/22 | 16/17 | 18/22 | 21/22 | 16/17 | 17/22 |
Funcional/HBP/Incontinencia | 15/15 | 8/13 | 14/17 | 15/15 | 9/13 | 13/17 |
Pediatría | 5/5 | 10/10 | 9/10 | 3/5 | 9/10 | 8/10 |
Miscelánea | 11/11 | 8/9 | 3/3 | 10/11 | 7/9 | 3/3 |
Cirugía/ Trauma | 10/13 | 20/23 | 15/17 | 9/13 | 20/23 | 15/17 |
Total | 93/105 | 88/105 | 89/105 | 86/105 | 89/105 | 84/105 |
Conclusiones Este estudio demuestra que los LLM logran una competencia avanzada en el ámbito de la urología, siendo capaces de superar con éxito el examen EBU In-Service entre los años 2023 y 2025. Los resultados posicionan a Gemini como el modelo con el desempeño más sobresaliente y consistente, logrando una precisión máxima de 99/105 en la evaluación de 2024. Por el contrario, Deepseek presentó el rendimiento más bajo en comparación con sus pares. La alta tasa de aciertos en subespecialidades complejas como oncología y cirugía confirma que estas herramientas de inteligencia artificial representan un recurso transformador con gran potencial para la autoevaluación médica y el apoyo en la formación especializada de los residentes