null ¿Podrá la inteligencia artificial mejorar la productividad del sistema sanitario?
Editorial
04/11/2025

Martín Caicoya Gómez-Morán. Médico. Miembro consejo editor de la revista

El economista Baumol argumenta que los salarios suben acorde a la productividad general pero que no en todas las áreas la tecnología y la organización pueden elevar la eficiencia. Un buen ejemplo es una orquesta: cada vez será más cara porque para interpretar una partitura necesitará siempre el mismo tiempo y número de profesionales cuyo salario aumentará como reflejo de lo que ocurre en otras áreas. Otro ejemplo es la provisión de servicios sanitarios. 

Cuando Baumol escribió “La enfermedad del coste”[1] la capacidad de la inteligencia artificial (IA) aplicada a la medicina había logrado pocos éxitos. El primer intento, el programa Internist-1, se desarrolló con la ayuda de un sabio internista, Dr. Myers, al que le presentaron 500 enfermedades empleando 3500 síntomas y signos. Los informáticos trataron de modelar su razonamiento médico mediante algoritmos y árboles de decisión. En una evaluación publicada en 1982 en el New England Journal of Medicine concluye: “la forma actual del programa no es lo suficientemente confiable para aplicaciones clínicas”[2]. El problema reside en que el proceso de pensamiento del clínico para llegar al diagnóstico no es lineal ni siempre racional. Se parece más al sistema de inteligencia artificial que se basa en el aprendizaje profundo. Uno de los primeros éxitos fue con el reconocimiento del gato. Alimentaron al ordenador a miles, millones de imágenes de gatos. El ordenador aprendía, no sabemos cómo, el caso es que expuesto a una imagen casual de un gato lo reconocía.

La informatización del acto médico prometía constituirse en una mina para el aprendizaje desde la experiencia. La idea es que el médico ante una decisión, por ejemplo, pedir una radiografía, el sistema le informaría de cómo habían procedido sus compañeros en una situación semejante. El obstáculo no previsto es que el texto libre de la historia clínica informatizada no es accesible a la computación. Solo se puede rescatar lo que aparece codificado en formularios. 

Así estábamos hasta que se desarrollaron las aplicaciones de lectura, principalmente para traducción. Una vez que sabe leer, basta alimentarlo, como se hizo con las imágenes, con miles, millones de casos clínicos. Son los Large Language Models, uno de los más populares, el ChatGPT. 

Si esto funciona, si la IA es capaz de orientar al clínico, la productividad en el área salud debería aumentaría. No solo ahorraría tiempo del clínico, además si es más eficiente en el uso de recursos, su contribución puede ayudar a mejorar los resultados en salud y en costes.

Para responder a estas preguntas, Goh et al[3] reclutaron 50 clínicos expertos a los que expusieron casos clínicos tipificados. El profesional, lo mismo que la IA, tenía que aventurar un diagnóstico y sus alternativas, señalar que información lo apoyaba y cuál lo detraía y proponer los siguientes pasos. Cada una de esas acciones era puntuada. El resultado principal fue la puntuación final. Los resultados secundarios fueron el tiempo empleado por caso (en segundos) y la precisión del diagnóstico final. Resumo la información de un caso con la que se alimentó al sistema, la misma que se ofreció a los profesionales: Se trata de un varón de 76 años que acude por dolor intenso de dos semanas de duración que se desencadena con la deambulación y se localiza en la zona lumbar, los glúteos y las pantorrillas. Se siente febril y cansado. En los análisis ha aparecido anemia y uremia. Unos días antes se había sometido a una angioplastia coronaria. Entonces se le administró heparina durante 48 horas. Tiene fiebre de 38, pulso 99, la manipulación vertebral es indolora pero el ejercicio le provoca dolor en la parte baja de la espalda, los glúteos y las pantorrillas, que desaparece poco después de interrumpir el ejercicio. Los pulsos periféricos estaban simétricamente reducidos, pero eran palpables. 

El principal resultado es que los médicos que empleaban los métodos tradicionales tuvieron una puntuación del 76 sobre 100 y de 74 los que tenían además acceso a ChatGPT. Tampoco hubo diferencias en el tiempo empleado en cada caso. Por tanto, desde esa perspectiva, la IA no ayuda. Pero lo curioso es que cuando se compara IA sola, frente a razonamiento clínico (contraste que no estaba en el diseño, por tanto es solo exploratorio) esta obtiene un 92% ¿Qué ha ocurrido? Las posibles respuestas son varias. La más importante es que la intuición o los sesgos médicos son muchas veces inamovibles, de nada sirve que la máquina le indique otra cosa. Una segunda puede ser la impericia en el uso de la ayuda.

Así que, según esta experiencia, la IA no solo es más fina estableciendo las hipótesis diagnósticas, también selecciona mejor las pruebas complementarias, con lo que podría mejorar el uso de recursos. Y como puede comprobar cualquiera, es mucho más veloz. Si realmente esto se confirmara con más estudios, podría constituirse en una herramienta para mejorar la eficiencia y la efectividad. 

Donde la ayuda al diagnóstico con IA está más desarrollada es en la mama. El proceso es semejante al del gato, cebaron a la máquina con millones de radiografías con su diagnóstico. Lazslo Tabar es, posiblemente, el radiólogo de mama más experto del mundo. Probó varias tecnologías, la mayoría lo hicieron tan bien o mejor que él. Incluso las retó con los casos más difíciles que había guardado de su larga trayectoria profesional. La AI los diagnosticó todos. Su vida ha sido leer mamografías y dice: “sueño con el día en que las mujeres exijan que haya AI en el hospital donde leer su mamografía”. Los ensayos clínicos apuntan en esa dirección: con doble lectura mixta respecto a la de dos radiólogos se incrementa la detección de cáncer y se recortan los falsos positivos[4]. Además posiblemente tenga buena aceptación por clínicos y pacientes. La ayuda diagnóstica computarizada ya se emplea desde hace varias décadas para la interpretación del electrocardiograma. 

Pero sustituir, o colaborar, con el clínico en el proceso diagnóstico es más complicado. En el estudio que se ha comentado, además de que los clínicos con acceso a IA no mejoran los resultados, los casos ya estaban historiados. La historia clínica es el instrumento más potente, sensible y versátil disponible para el médico. Por eso, hacer una buena historia clínica quizá sea el reto más importante para el profesional. Mucho más para la máquina. A este desafío se enfrenta el programa AMIE (Articulate Medical Intelligence Explorer). Para desarrollarlo, grabaron cerca 100.000 conversaciones reales entre médico y paciente y una vez trascritas, las suministraron al sistema. Además, se alimentó con resúmenes detallados de notas de casos de unidades de cuidados intensivos y miles de preguntas del examen de licencia médica de los Estados Unidos. Sometido al banco del ensayo clínico en que compara el rendimiento de 20 médicos de primaria certificados y AMIE, se ve que la IA es más capaz en la realización del diagnóstico y puntúa mejor en prácticamente todos los ejes, incluyendo todas las categorías de comunicación y empatía[5]

La IA, como cualquier tecnología, tiene la virtud de mejorar la capacidad de producción y a la vez el defecto de reducir el empleo en los sectores donde pueda sustituir a los trabajadores. Pero, frente a las tecnologías clásicas, la IA presenta nuevas amenazas. En el “Diálogo global para la gobernanza de la inteligencia artificial” de la ONU, en setiembre de 2025, los conferenciantes examinaron las promesas de la tecnología para curar enfermedades, expandir la producción de comida, acelerar el aprendizaje e identificaron los riesgos que incluyen la vigilancia masiva, la divulgación de desinformación, el consumo de recursos y empeoramiento de la brecha entre la gente y las naciones. Pero lo más inquietante es la posibilidad de que algún día sea autónoma y desarrolle objetivos propios.  
Mientras tanto, se ha introducido en la vida ordinaria a una velocidad pasmosa, la usamos para casi todo como antes acudíamos a los buscadores. 

En el sistema sanitario la predicción según del informe de la Universidad de Oxford de 2013[6], era que afectará a las tareas administrativas y no a la clínica. Sin embargo, la llegada del aprendizaje profundo puede modificar esta predicción.

Palabras clave: eficiencia procesos diagnósticos inteligencia artifical

Bibliografía

[1]-Baumol, William J. (2012). The Cost Disease: Why Computers Get Cheaper and Health Care Doesn't. Yale University Press. ISBN 978-0-300-19815-7.
[2]-Miller RA, Pople HE Jr, Myers JD. Internist-1, an experimental computer-baseddiagnostic consultant for general internal medicine. N Engl J Med. 1982 Aug 19;307(8):468-76. doi: 10.1056/NEJM198208193070803. PMID: 7048091.
[3]-Goh E, Gallo R, Hom J, et al. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Netw Open. 2024;7(10):e2440969. doi:10.1001/jamanetworkopen.2024.40969
[4]-Dembrower, K et al.Artificial intelligence for breast cancer detection in screening mammography in Sweden: a prospective, population-based, paired-reader, non-inferiority study The Lancet Digital Health, Volume 5, Issue 10, e703 - e711
[5]- Tu, T., Schaekermann, M., Palepu, A. et al. Towards conversational diagnostic artificial intelligence. Nature 642, 442–450 (2025). https://doi.org/10.1038/s41586-025-08866-.
[6]-Frey  CB, Osborne MA. The Future Of Employment: How Susceptible Are Jobs To Computerisation. Sept 2013.  [Disponible en https://oms-www.files.svdcdn.com/production/downloads/academic/The_Future_of_Employment.pdf] [ consultado el 12/12/2024]

Número: 14 de 2025