89 Congreso Nacional de Urología

Palacio Municipal de Congresos, Madrid · 10-12 de junio 2026

Es necesario realizar la preinscripción al acto inagural y a la cena de clausura

Programa Científico

Póster P-136 — ¿Puede la inteligencia artificial superar al residente? Evaluación de modelos de lenguaje de gran tamaño en urología funcional

Arevalo Ruales, R; Gomez Davila, P; Giner Fons, J; Santos Arrontes, D; Fernandez Montarroso, L; Bañuelos Marco, B; Moreno Sierra, J
Hospital Clinico San Carlos, Madrid
Póster P-136

Resumen

Introducción

Los modelos de inteligencia artificial se están incorporado progresivamente al ámbito de la educación médica y la práctica clínica. El examen European Board of Urology (EBU) In-Service incluye un bloque específico de preguntas sobre urología funcional. El objetivo de este estudio fue analizar el desempeño de distintos modelos de lenguaje de gran tamaño (LLM) en preguntas oficiales de urología funcional del examen EBU, para así valorar su posible utilidad como herramienta de apoyo educativo y clínico.

Material y métodos
Se seleccionaron todas las preguntas de urología funcional incluidas en el examen EBU In-Service de los años 2023 (15), 2024 (13) y 2025 (17), sumando un total de 45 preguntas. Cada pregunta se planteó de forma individual en los diferentes modelos de IA, sin entrenamiento previo, para así lograr un uso estándar por parte del usuario.

Los modelos evaluados fueron chatGPT (GPT-4, OpenAI, San Francisco, Estados Unidos), DeepSeek (DeepSeek-AI, Hangzhou, China). Gemini (V1.5 Google,Mountain View, Estados Unidos). Grok (xAI, San Francisco Estados Unidos). Las respuestas se clasificaron como correctas o incorrectas basado en las plantillas oficiales del examen. Se calculó el porcentaje de aciertos por año y de forma global. Para comparar los 4 modelos simultáneamente se usó el análisis independiente de chi2 con SPSS Statistics (v31, Nueva York, Estados Unidos)

Resultados

Gemini obtuvo el mayor porcentaje global de respuestas correctas (93%), en el análisis estadístico se obtuvo una p=0,375 por lo que esta diferencia no fue significativa entre el rendimiento de los diferentes LLM.

Modelo de IA

EBU 2023

EBU 2024

EBU 2025

Total

ChatGPT

15/15

11/13

13/17

39/45 (86%)

DeepSeek

15/15

9/13

13/17

37/45 (82%)

Gemini

15/15

12/13

15/17

42/45 (93%)

Grok

15/15

8/13

14/17

37/45 (82%)

Conclusiones
Los modelos de inteligencia artificial evaluadas muestran un gran rendimiento en preguntas de urología funcional del examen EBU, especialmente Gemini, la cual supera el 90% de aciertos. Estos resultados sugieren que los LLM son una herramienta complementaria útil para el estudio y la autoevaluación en urología funcional, e incluso como apoyo en la práctica clínica. Sin embargo, su uso debe considerarse siempre como apoyo a la formación y práctica clínica y no como sustituto de la enseñanza formal ni de las guías clínicas oficiales.

Sesión: SP-12 Educación · Sala: Praga

Recursos

Web en renovación, trabajamos para ofrecerles una mejor experiencia