Póster P-457 — Evaluación comparativa de ChatGPT, Deepseek, Gemini y Grok en el examen EBU In-Service: excelencia en urología reconstructiva (2023-2025
Resumen
Introducción
La inteligencia artificial (IA) generativa está transformando la forma en que conocemos la medicina. El examen European Board of Urology in-service (EBU) incluye preguntas específicas sobre urología reconstructiva, un área crítica para el manejo de lesiones uretrales y reconstructivas. Este estudio evalúa el desempeño de cuatro modelos de lenguaje grandes (LLM) en preguntas de urología reconstructiva del EBU in-service de los años 2023, 2024 y 2025, con el objetivo de determinar su utilidad como recurso educativo y clínico para residentes y especialistas.
Material y métodos Se seleccionaron todas las preguntas de urología reconstructiva del examen EBU in-service: 3 de 2023, 5 de 2024 y 3 de 2025 . Estas se obtuvieron de fuentes oficiales y se formularon individualmente a cada LLM sin prompts adicionales para simular un uso estándar. Los modelos evaluados fueron: ChatGPT (versión 4), Deepseek (versión actualizada), Gemini (versión 1.5) y Grok (versión 4). Las respuestas se calificaron como correctas o incorrectas basadas en las claves oficiales del EBU.
Resultados Los resultados se resumen en la tabla adjunta. Grok obtuvo el mayor puntaje total (11/11, 100%), seguido de Deepseek y Gemini (10/11, 90.9% cada uno) y ChatGPT (9/11, 81.8%). Por año: en 2023, Deepseek, Gemini y Grok alcanzaron 3/3 (100%), mientras que ChatGPT obtuvo 1/3 (33.3%); en 2024, todos los modelos lograron 5/5 (100%); en 2025, Grok obtuvo 3/3 (100%), ChatGPT (3/3, 100%) y Deepseek/Gemini (2/3, 66.7%).
Herramienta de inteligencia artificial generativa | EBU 2023 | EBU 2024 | EBU 2025 | Total |
ChatGPT | 1/3 | 5/5 | 3/3 | 9/11 (81,8%) |
Deepseek | 3/3 | 5/5 | 2/3 | 10/11 (90,9%) |
Gemini | 3/3 | 5/5 | 2/3 | 10/11 (90,9%) |
Grok | 3/3 | 5/5 | 3/3 | 11/11 (100%) |
Conclusiones Los LLM demostraron un alto rendimiento (>80%) en preguntas de urología reconstructiva del EBU in-service, destacando Grok por su puntuación perfecta. Estos modelos pueden servir como herramientas complementarias para la preparación educativa en urología reconstructiva. Sin embargo, no reemplazan el razonamiento clínico humano ni la experiencia práctica. Estudios futuros podrían incluir más preguntas y prompts optimizados para maximizar su aplicación en congresos y formación especializada.