Programa Científico

Póster P-137 — Humano frente a inteligencia artificial en la toma de decisiones urológicas: un estudio observacional, transversal y comparativo

Capinha, M.; Fernandes, C.; Freitas, R.; Lobo, F.; Sanches, J.; Silva, V.; Correia, J.; Carvalho, J.; Morais, A.; Braga, I.

Unidade Local de Saúde de Braga

Resumen

Introducción
La inteligencia artificial (IA) se ha integrado en la toma de decisiones médicas, aunque su capacidad para reproducir o complementar el razonamiento clínico sigue siendo incierta. Los Sistemas de Apoyo a la Decisión Clínica (CDSS) proporcionan recomendaciones validadas, pero su acceso es limitado por requisitos institucionales y económicos. Esta restricción ha favorecido el uso creciente de modelos conversacionales de IA de propósito general en la práctica clínica. Este estudio comparó la toma de decisiones clínicas entre urólogos y sistemas de IA mediante un cuestionario estructurado.

Material y métodos
Se realizó un estudio observacional, transversal y comparativo mediante un cuestionario en línea con cinco casos clínicos urológicos ambiguos, distribuido a nivel nacional a residentes y especialistas en urología entre agosto y octubre de 2025, analizándose 25 respuestas. Los participantes seleccionaron el abordaje más adecuado para cada caso, que también fue evaluado por Chatbot EAU, ChatGPT, Copilot, Deepseek y Gemini. El análisis comparó la concordancia entre respuestas humanas y de IA, las diferencias entre sistemas de IA y variaciones entre subgrupos humanos, utilizando SPSS 26, con significación estadística definida como p < 0,05.

Resultados
Chatbot EAU mostró una concordancia estadísticamente significativa con el razonamiento clínico humano (p = 0,022), mientras que Deepseek presentó una concordancia moderada (p = 0,079). En contraste, ChatGPT, Copilot y Gemini no mostraron acuerdo significativo con el consenso humano (p = 1,00). Entre los sistemas de IA, ChatGPT y Copilot fueron los más concordantes entre sí, mientras que Deepseek se alineó estrechamente con Chatbot EAU (p = 0,006), lo que sugiere distintos marcos de razonamiento. No se observaron diferencias significativas entre subgrupos humanos (p = 0,287), con una concordancia moderada entre residentes y especialistas (kappa = 0,38).

Conclusiones
Chatbot EAU mostró la mayor concordancia con el consenso clínico humano, lo que respalda su potencial como herramienta de IA fiable. Las diferencias entre los sistemas de IA reflejan marcos de razonamiento distintos, mientras que la consistencia entre los participantes humanos refuerza la solidez del juicio clínico, apoyando futuras investigaciones sobre la complementariedad entre IA y clínicos en urología.

Palabras clabe: Inteligencia artificial; Chatbot; decisiones clínicas

Sesión: SP-12 Educación · Sala: Praga

← Volver a la sesión ← Volver al programa