Programa Científico

Póster P-457 — Evaluación comparativa de ChatGPT, Deepseek, Gemini y Grok en el examen EBU In-Service: excelencia en urología reconstructiva (2023-2025)

Arevalo Ruales, R; Gomez Davila, P; Giner Fons, J; Hermida Gutiérrez, J; Bañuelos Marco, B; Moreno Sierra, J

Hospital Clinico San Carlos, Madrid

Resumen

Introducción

La inteligencia artificial (IA) generativa está transformando la forma en que conocemos la medicina. El examen European Board of Urology in-service (EBU) incluye preguntas específicas sobre urología reconstructiva, un área crítica para el manejo de lesiones uretrales y reconstructivas. Este estudio evalúa el desempeño de cuatro modelos de lenguaje grandes (LLM) en preguntas de urología reconstructiva del EBU in-service de los años 2023, 2024 y 2025, con el objetivo de determinar su utilidad como recurso educativo y clínico para residentes y especialistas.

Material y métodos Se seleccionaron todas las preguntas de urología reconstructiva del examen EBU in-service: 3 de 2023, 5 de 2024 y 3 de 2025 . Estas se obtuvieron de fuentes oficiales y se formularon individualmente a cada LLM sin prompts adicionales para simular un uso estándar. Los modelos evaluados fueron: ChatGPT (versión 4), Deepseek (versión actualizada), Gemini (versión 1.5) y Grok (versión 4). Las respuestas se calificaron como correctas o incorrectas basadas en las claves oficiales del EBU.

Resultados Los resultados se resumen en la tabla adjunta. Grok obtuvo el mayor puntaje total (11/11, 100%), seguido de Deepseek y Gemini (10/11, 90.9% cada uno) y ChatGPT (9/11, 81.8%). Por año: en 2023, Deepseek, Gemini y Grok alcanzaron 3/3 (100%), mientras que ChatGPT obtuvo 1/3 (33.3%); en 2024, todos los modelos lograron 5/5 (100%); en 2025, Grok obtuvo 3/3 (100%), ChatGPT (3/3, 100%) y Deepseek/Gemini (2/3, 66.7%).

Herramienta de inteligencia artificial generativa	EBU 2023	EBU 2024	EBU 2025	Total
ChatGPT	1/3	5/5	3/3	9/11 (81,8%)
Deepseek	3/3	5/5	2/3	10/11 (90,9%)
Gemini	3/3	5/5	2/3	10/11 (90,9%)
Grok	3/3	5/5	3/3	11/11 (100%)

Conclusiones Los LLM demostraron un alto rendimiento (>80%) en preguntas de urología reconstructiva del EBU in-service, destacando Grok por su puntuación perfecta. Estos modelos pueden servir como herramientas complementarias para la preparación educativa en urología reconstructiva. Sin embargo, no reemplazan el razonamiento clínico humano ni la experiencia práctica. Estudios futuros podrían incluir más preguntas y prompts optimizados para maximizar su aplicación en congresos y formación especializada.

Sesión: SP-100 Posters sin moderación · Sala: Exposición Comercial

← Volver a la sesión ← Volver al programa