Programa Científico

Póster P-488 — Capacidad de los modelos de lenguaje grandes en el conocimiento urológico avanzado: resultados en el examen EBU In-Service

Arevalo Ruales, R; Ibañez Vazquez ,L; Hernández Terán, A; Gomez Rivas, J; Galante Romo, Mi; Santos Arrontes, D; Ruiz Leon, Ma; Ortega Polledo, L; Moreno Sierra, J

Hospital Clinico San Carlos, Madrid

Resumen

_{Introducción La inteligencia artificial está transformando la medicina como la conocemos. El examen EBU In Service es un examen de autoevaluación organizado por el consejo europeo de urología. Este estudio evalúa el desempeño de cuatro modelos de lenguaje grandes (LLM) en este examen.}

_{Material y métodos Se seleccionaron los exámenes de los años 2023-2025. Los modelos evaluados fueron: ChatGPT (versión 4), Deepseek (versión actualizada), Gemini (versión 1.5) y Grok (versión 4, xAI). Las respuestas se calificaron como correctas o incorrectas según las claves oficiales del examen.}

_Resultados

	_{ChatGPT EBU 2023}	_{ChatGPT EBU 2024}	_{ChatGPT EBU 2025}	_Gemini _{EBU 2023}	_Gemini _{EBU 2024}	_Gemini _{EBU 2025}
_Oncología	_24/28	_20/22	_24/26	_25/28	_22/22	_22/26
_Andrología	_8/10	_8/11	_9/10	_8/10	_8/11	_10/10
_{Litiasis/Infecciones}	_20/22	_16/17	_18/22	_22/22	_16/17	_21/22
_{Funcional/HBP/Incontinencia}	_15/15	_11/13	_13/17	_15/15	_12/13	_15/17
_Pediatría	_4/5	_9/10	_10/10	_4/5	_10/10	_9/10
_Miscelánea	_11/11	_8/9	_3/3	_11/11	_7/9	_3/3
_{Cirugía/ Trauma}	_10/13	_22/23	_17/17	_9/11	_23/23	_16/17
_Total	_92/105	_94/105	_94/105	_94/105	_99/105	_98/105
	_GROK _{EBU 2023}	_GROK _{EBU 2024}	_GROK _{EBU 2025}	_Deepseek _{EBU 2023}	_Deepseek _{EBU 2024}	_Deepseek _{EBU 2025}
_Oncología	_22/28	_18/22	_20/26	_23/28	_20/22	_19/26
_Andrología	_8/10	_8/11	_10/10	_5/10	_8/11	_9/10
_{Litiasis/Infecciones}	_21/22	_16/17	_18/22	_21/22	_16/17	_17/22
_{Funcional/HBP/Incontinencia}	_15/15	_8/13	_14/17	_15/15	_9/13	_13/17
_Pediatría	_5/5	_10/10	_9/10	_3/5	_9/10	_8/10
_Miscelánea	_11/11	_8/9	_3/3	_10/11	_7/9	_3/3
_{Cirugía/ Trauma}	_10/13	_20/23	_15/17	_9/13	_20/23	_15/17
_Total	_93/105	_88/105	_89/105	_86/105	_89/105	_84/105

_{Conclusiones Este estudio demuestra que los LLM logran una competencia avanzada en el ámbito de la urología, siendo capaces de superar con éxito el examen EBU In-Service entre los años 2023 y 2025. Los resultados posicionan a Gemini como el modelo con el desempeño más sobresaliente y consistente, logrando una precisión máxima de 99/105 en la evaluación de 2024. Por el contrario, Deepseek presentó el rendimiento más bajo en comparación con sus pares. La alta tasa de aciertos en subespecialidades complejas como oncología y cirugía confirma que estas herramientas de inteligencia artificial representan un recurso transformador con gran potencial para la autoevaluación médica y el apoyo en la formación especializada de los residentes}

Sesión: SP-100 Posters sin moderación · Sala: Exposición Comercial

← Volver a la sesión ← Volver al programa