Programa Científico

Póster P-136 — ¿Puede la inteligencia artificial superar al residente? Evaluación de modelos de lenguaje de gran tamaño en urología funcional

Arevalo Ruales, R; Gomez Davila, P; Giner Fons, J; Santos Arrontes, D; Fernandez Montarroso, L; Bañuelos Marco, B; Moreno Sierra, J

Hospital Clinico San Carlos, Madrid

Resumen

Introducción

Los modelos de inteligencia artificial se están incorporado progresivamente al ámbito de la educación médica y la práctica clínica. El examen European Board of Urology (EBU) In-Service incluye un bloque específico de preguntas sobre urología funcional. El objetivo de este estudio fue analizar el desempeño de distintos modelos de lenguaje de gran tamaño (LLM) en preguntas oficiales de urología funcional del examen EBU, para así valorar su posible utilidad como herramienta de apoyo educativo y clínico.

Material y métodos
Se seleccionaron todas las preguntas de urología funcional incluidas en el examen EBU In-Service de los años 2023 (15), 2024 (13) y 2025 (17), sumando un total de 45 preguntas. Cada pregunta se planteó de forma individual en los diferentes modelos de IA, sin entrenamiento previo, para así lograr un uso estándar por parte del usuario.

Los modelos evaluados fueron chatGPT (GPT-4, OpenAI, San Francisco, Estados Unidos), DeepSeek (DeepSeek-AI, Hangzhou, China). Gemini (V1.5 Google,Mountain View, Estados Unidos). Grok (xAI, San Francisco Estados Unidos). Las respuestas se clasificaron como correctas o incorrectas basado en las plantillas oficiales del examen. Se calculó el porcentaje de aciertos por año y de forma global. Para comparar los 4 modelos simultáneamente se usó el análisis independiente de chi2 con SPSS Statistics (v31, Nueva York, Estados Unidos)

Resultados

Gemini obtuvo el mayor porcentaje global de respuestas correctas (93%), en el análisis estadístico se obtuvo una p=0,375 por lo que esta diferencia no fue significativa entre el rendimiento de los diferentes LLM.

Modelo de IA	EBU 2023	EBU 2024	EBU 2025	Total
ChatGPT	15/15	11/13	13/17	39/45 (86%)
DeepSeek	15/15	9/13	13/17	37/45 (82%)
Gemini	15/15	12/13	15/17	42/45 (93%)
Grok	15/15	8/13	14/17	37/45 (82%)

Conclusiones
Los modelos de inteligencia artificial evaluadas muestran un gran rendimiento en preguntas de urología funcional del examen EBU, especialmente Gemini, la cual supera el 90% de aciertos. Estos resultados sugieren que los LLM son una herramienta complementaria útil para el estudio y la autoevaluación en urología funcional, e incluso como apoyo en la práctica clínica. Sin embargo, su uso debe considerarse siempre como apoyo a la formación y práctica clínica y no como sustituto de la enseñanza formal ni de las guías clínicas oficiales.

Sesión: SP-12 Educación · Sala: Praga

← Volver a la sesión ← Volver al programa