89 Congreso Nacional de Urología

Palacio Municipal de Congresos, Madrid · 10-12 de junio 2026

Es necesario realizar la preinscripción al acto inagural y a la cena de clausura

Programa Científico

Póster P-457 — Evaluación comparativa de ChatGPT, Deepseek, Gemini y Grok en el examen EBU In-Service: excelencia en urología reconstructiva (2023-2025

Arevalo Ruales, R; Gomez Davila, P; Giner Fons, J; Hermida Gutiérrez, J; Bañuelos Marco, B; Moreno Sierra, J
Hospital Clinico San Carlos, Madrid
Póster P-457

Resumen

Introducción

La inteligencia artificial (IA) generativa está transformando la forma en que conocemos la medicina. El examen European Board of Urology in-service (EBU) incluye preguntas específicas sobre urología reconstructiva, un área crítica para el manejo de lesiones uretrales y reconstructivas. Este estudio evalúa el desempeño de cuatro modelos de lenguaje grandes (LLM) en preguntas de urología reconstructiva del EBU in-service de los años 2023, 2024 y 2025, con el objetivo de determinar su utilidad como recurso educativo y clínico para residentes y especialistas.

Material y métodos Se seleccionaron todas las preguntas de urología reconstructiva del examen EBU in-service: 3 de 2023, 5 de 2024 y 3 de 2025 . Estas se obtuvieron de fuentes oficiales y se formularon individualmente a cada LLM sin prompts adicionales para simular un uso estándar. Los modelos evaluados fueron: ChatGPT (versión 4), Deepseek (versión actualizada), Gemini (versión 1.5) y Grok (versión 4). Las respuestas se calificaron como correctas o incorrectas basadas en las claves oficiales del EBU.

Resultados Los resultados se resumen en la tabla adjunta. Grok obtuvo el mayor puntaje total (11/11, 100%), seguido de Deepseek y Gemini (10/11, 90.9% cada uno) y ChatGPT (9/11, 81.8%). Por año: en 2023, Deepseek, Gemini y Grok alcanzaron 3/3 (100%), mientras que ChatGPT obtuvo 1/3 (33.3%); en 2024, todos los modelos lograron 5/5 (100%); en 2025, Grok obtuvo 3/3 (100%), ChatGPT (3/3, 100%) y Deepseek/Gemini (2/3, 66.7%).

Herramienta de inteligencia artificial generativa

EBU 2023

EBU 2024

EBU 2025

Total

ChatGPT

1/3

5/5

3/3

9/11 (81,8%)

Deepseek

3/3

5/5

2/3

10/11 (90,9%)

Gemini

3/3

5/5

2/3

10/11 (90,9%)

Grok

3/3

5/5

3/3

11/11 (100%)

Conclusiones Los LLM demostraron un alto rendimiento (>80%) en preguntas de urología reconstructiva del EBU in-service, destacando Grok por su puntuación perfecta. Estos modelos pueden servir como herramientas complementarias para la preparación educativa en urología reconstructiva. Sin embargo, no reemplazan el razonamiento clínico humano ni la experiencia práctica. Estudios futuros podrían incluir más preguntas y prompts optimizados para maximizar su aplicación en congresos y formación especializada.

Sesión: SP-100 Posters sin moderación · Sala: Exposición Comercial

Recursos

Web en renovación, trabajamos para ofrecerles una mejor experiencia