Operativizar las directrices FUTURE-AI para evaluar la IA en el ámbito sanitario: ¿dónde pueden contribuir los expertos en seguimiento y evaluación (M&E)?

Si creemos que la IA puede revolucionar la atención médica para los pacientes, entonces surge la pregunta: ¿por qué la adopción clínica de las soluciones emergentes de IA sigue siendo un desafío a pesar de los importantes avances en la investigación de la inteligencia artificial (IA) médica? Muchos factores contribuyen a la falta de adopción, desde el contexto macroeconómico hasta la preparación tecnológica, organizativa, regulatoria y de los proveedores de atención médica. Entre ellos, la confiabilidad de la IA es un tema crucial que debemos abordar, y para abordarlo, como ya habrás adivinado, debemos medirla . Y para medirla, debemos definirla y evaluarla.
En este artículo, analizaré el marco FUTURE-AI desde la perspectiva de la evaluación de programas y responderé a seis preguntas clave al respecto:
-
¿Qué es la IA del futuro?
-
¿Participó algún experto en evaluación de programas en este consorcio?
-
¿Qué quieren decir cuando usan la palabra “evaluación”?
-
¿Qué valor añadido aporta este marco para evaluar la IA en el sector sanitario?
-
¿En qué etapas y de qué manera pueden los expertos en evaluación de programas mejorar y contribuir a estas directrices?
-
¿Cuál es el llamado a la acción?
El primer autor, el Dr. Karim Lekadir, presentó este marco durante la conferencia Four Years From Now (4YFN), celebrada en el marco del Mobile World Congress de Barcelona el 4 de marzo. Este evento, el más importante del mundo para startups, inversores e innovadores que dan forma al futuro de la conectividad, con especial énfasis en la salud y la tecnología sanitaria, aportó un contexto más amplio y ejemplos prácticos sobre cómo implementar las directrices.
1. ¿Qué es la IA del futuro?
El marco FUTURE-AI , publicado en enero de 2025, es un marco internacional basado en el consenso que proporciona orientación para el desarrollo y la implementación de herramientas de IA confiables en el sector de la salud. Establecido por un grupo de 117 expertos interdisciplinarios de 50 países, el marco se basa en seis principios clave: equidad , universalidad , trazabilidad , usabilidad , robustez y explicabilidad . Para poner en práctica estos principios, el grupo ha definido 30 buenas prácticas que abarcan el ciclo de vida de la IA en el sector de la salud, desde el diseño, el desarrollo y la validación hasta la implementación y el monitoreo.
2. ¿Participó algún experto en evaluación de programas en este consorcio?
La lista de miembros del consorcio es pública y demuestra una amplia experiencia en ciencia de datos, investigación médica, ingeniería informática, ética y campos afines. Sin embargo, una búsqueda con términos como «evaluación» o «evaluador» no arrojó ninguna representación explícita de profesionales en evaluación de programas.
Esto no significa necesariamente que faltara experiencia en evaluación de programas, sino simplemente que dicha experiencia no estaba claramente identificada o, más probablemente, se incluía junto con la "Investigación". (Si aún se pregunta si la investigación y la evaluación son diferentes o lo mismo, le recomendamos leer Wanzer, DL (2021). ¿Qué es la evaluación?: Perspectivas sobre cómo la evaluación difiere (o no) de la investigación. American Journal of Evaluation , 42(1), 28-46. O bien, busque en Google "Research and Evaluation Hour Glass" de Hallie Preskill, FSG-Social Impact Advisors).
3. ¿Qué quieren decir cuando usan la palabra “evaluación”?
En el contexto de la IA y la evaluación, la palabra " evaluación " tiene diferentes significados según a quién se le pregunte. Esto puede resultar obvio para algunos, pero prefiero mencionarlo porque a menudo he visto malentendidos y personas hablando con intenciones contradictorias:
-
Los ingenieros informáticos, los científicos de datos y los desarrolladores podrían estar hablando de evaluación de modelos; hablamos de precisión, sensibilidad y especificidad del modelo, hablamos de puntuación F1, coeficiente Dice, etc.
-
Los profesionales clínicos podrían estar hablando de diferentes tipos de evaluación, incluyendo viabilidad, seguridad, resultados de salud, experiencia del paciente o eficiencia. Podríamos estar hablando de investigación operativa, optimización de procesos o control de calidad.
-
Cualquiera podría estar hablando de evaluación clínica, un término muy específico si la IA se considera un dispositivo médico en su jurisdicción, que es la evaluación y el análisis de datos clínicos relacionados con un dispositivo médico para verificar la seguridad clínica y el rendimiento del dispositivo.
-
¿Y los evaluadores de programas? Abordan una amplia gama de temas: el impacto de la IA en pacientes, profesionales clínicos, flujo de trabajo, costos, eficiencia, cambio organizacional, resultados de salud pública y sostenibilidad ambiental. Hablamos de Teorías del Cambio, el Marco RE-AIM , el Marco Consolidado para la Investigación de la Implementación y la evaluación participativa con pacientes, entre otros.
En las directrices de FUTURE-AI, el término «evaluación» se ha utilizado para referirse tanto a la validación del modelo como a la evaluación del impacto del modelo de IA en los usuarios y los médicos. Me alegró ver el punto n.° 5 en la diapositiva de «Mensajes clave» del Dr. Lekadir.

4. ¿Qué valor añadido aporta este marco para evaluar la IA en el sector sanitario?
Evaluar la IA en el sector sanitario no es tarea sencilla. Actualmente, no existe un marco universal ni estándar para evaluar la IA en este ámbito. Las teorías, modelos y marcos existentes sobre la evaluación de la IA cumplen diferentes propósitos:
-
Algunos tienen un alcance regional (por ejemplo, 🇨🇦 Principios rectores pancanadienses de IA para la salud ).
-
Algunos son marcos más amplios que se aplican a la salud digital o a las intervenciones basadas en tecnología (por ejemplo, el Marco y el Kit de Herramientas de Evaluación de la Salud Digital Pancanadiense).
-
Algunos se centran en informar sobre intervenciones de IA (por ejemplo, TRIPOD-AI, DECIDE-AI),
-
Algunos destacan los aspectos éticos y regulatorios (por ejemplo, la guía de la OMS sobre ética y gobernanza de la IA para grandes modelos multimodales ).
Las directrices de FUTURE-AI son:
-
Específico para la atención médica
-
Se centra específicamente en la IA en lugar de en la tecnología digital en general.
-
Ofrece una perspectiva global en lugar de limitarse a una jurisdicción en particular.
-
Cubre el ciclo de vida completo de las herramientas de IA, desde el diseño y el desarrollo hasta la validación y la implementación.
-
Ha analizado las implicaciones prácticas de la implementación de intervenciones de IA en sistemas de salud con recursos limitados .
5. ¿En qué etapas y de qué manera pueden los expertos en evaluación de programas mejorar y contribuir a estas directrices?
Dentro de este marco, existen varios ámbitos lógicos donde los profesionales de monitoreo y evaluación (M&E) pueden realizar contribuciones significativas. A continuación, se destacan los puntos clave, pero esta lista no es exhaustiva.
A. Fase de diseño del desarrollo de la IA
G7: Investigación de cuestiones sociales y ambientales: Actualmente, esta recomendación es amplia. Además de los factores descritos en el marco, se podría establecer desde el principio un plan de seguimiento y evaluación iterativo y flexible para examinar los impactos a largo plazo en la salud pública , el medio ambiente y la sociedad de las "herramientas de IA confiables". Dependiendo del alcance de la intervención de IA (micro, miso, macro), no todas las soluciones de IA tendrán implicaciones directas para la salud pública, pero dado que la salud pública es uno de los cinco objetivos de los sistemas de salud, merece una mención explícita en las directrices.

B. Fase de validación
Los expertos en evaluación de programas están en una posición privilegiada para evaluar la usabilidad para pacientes y profesionales clínicos, el costo, la eficiencia, la seguridad y la capacitación para los usuarios finales . Estos aspectos se alinean particularmente bien con los principios de Usabilidad (4,5) y Explicabilidad (2) de FUTURE-AI.
Necesitamos más que encuestas y grupos focales en la fase de pruebas de usabilidad; necesitamos una participación significativa de los pacientes, que podría comenzar en la fase de diseño. Los pacientes podrían participar en el diseño conjunto de soluciones de IA, utilizando métodos como la evaluación participativa y los grupos asesores de investigación de pacientes (véase Banerjee, Alsop, Jones y Cardinal, 2022 para más información).
C. Fase de implementación en entornos sanitarios
En esta fase, las áreas clave para los evaluadores del programa incluyen la integración con los flujos de trabajo clínicos (Universalidad 4) y la implementación de métodos creativos y centrados en el paciente para obtener comentarios de los usuarios (Trazabilidad 3).
Además, integrar la experiencia en evaluación de programas en el equipo de supervisión multidisciplinario es esencial para garantizar que la evaluación respalde tanto la rendición de cuentas como el aprendizaje , dos pilares fundamentales de la disciplina.
D. Evaluación de las consecuencias no deseadas y a largo plazo de la IA tras su implementación.
Este es un tema complejo y forma parte de un debate más amplio. Las evaluaciones posteriores a la implementación son fundamentales para comprender qué funciona, dónde, para quién y en qué circunstancias. Los sistemas de salud están concebidos como sistemas de aprendizaje , pero en este contexto, las modificaciones posteriores al lanzamiento pueden ser complicadas o lentas. Los autores de las directrices FUTURE-AI señalan que, por el momento, la normativa vigente impide las modificaciones posteriores al lanzamiento, ya que invalidarían formalmente la validación inicial del fabricante.
Es una falsa dicotomía considerar las regulaciones como «el problema que obstaculiza la innovación y el aprendizaje» o como «lo que nos va a proteger». Lo que sabemos es que la regulación existe, es necesaria, es lenta y es compleja.

Una de las conclusiones que saqué de 4YFN fue que preguntar si debemos regular o no la IA no es la pregunta correcta. ¿Una pregunta mejor? ¿Cómo elaborar regulaciones que puedan evolucionar más rápidamente?
Espacios como la Comunidad de Práctica de la Agencia Global para la IA Responsable son un buen lugar para participar en estos debates y colaborar en la búsqueda de soluciones (por ejemplo, en nuestra última reunión hablamos sobre entornos de pruebas regulatorios).
6. ¿Llamada a la acción?
Las directrices de FUTURE-AI representan un importante esfuerzo global. Me complace comprobar que se conciben como un documento dinámico abierto a comentarios. Desde la perspectiva del seguimiento y la evaluación, ofrezco las siguientes sugerencias:
Para la red FUTURE-AI
-
Reforzar el papel de los pacientes dentro de las directrices como potenciales codiseñadores de soluciones de IA.
-
Mencione explícitamente los resultados de salud de la población (uno de los cinco objetivos de los sistemas de salud) dentro de este marco.
-
Colabore (o continúe colaborando) con expertos en monitoreo y evaluación para las futuras versiones de estas valiosas directrices. Los profesionales de monitoreo y evaluación también pueden brindar apoyo en la elaboración de casos prácticos para la implementación de estas directrices en diversos contextos.
Para evaluadores de programas/proyectos:
-
Lee el artículo y explora el sitio web del consorcio aquí. También han iniciado una serie de seminarios web que, supongo, profundizarán en cada concepto.
Para desarrolladores e implementadores de IA
-
Involucre a expertos en evaluación de programas cuya experiencia complemente la ciencia de datos, la ingeniería informática y la experiencia clínica. Involúcrelos desde la fase inicial de diseño. Pueden ayudar a los equipos interdisciplinarios a comprender las complejidades de la IA, garantizando que las evaluaciones sean sólidas, prácticas, adaptadas al contexto, culturalmente apropiadas y relevantes.
Para todos

-
Infórmese sobre la Agencia Global para la IA Responsable y solicite unirse a nuestra Comunidad de Práctica para participar en debates relevantes relacionados con la IA confiable y las regulaciones.
-
Otro ámbito a tener en cuenta es el proyecto europeo AHEAD (AI for Health: Evaluation of Applications & Datasets), coordinado por el Centro Nacional de Supercomputación de Barcelona (BSC-CNS). Compartiré mis hallazgos sobre este proyecto en una próxima publicación.
-
Únete a esta conversación en LinkedIn.
-
Envíame un correo electrónico a Roxana@vitus.ca si deseas colaborar para impulsar estas ideas o si tienes algún recurso útil para compartir.
Recursos
Banerjee, S., Alsop, P., Jones, L., & Cardinal, RN (2022). Participación de pacientes y público para generar confianza en la inteligencia artificial: un marco, herramientas y estudios de caso. Patterns, 3 (6). https://doi.org/10.1016/j.patter.2022.100550
Brual, J., Rouleau, G., Fleury, C., Strom, M., Koshy, M., Rios, P., Bhattacharyya, O., Abejirinde, IO (2022). Marco y conjunto de herramientas para la evaluación de la salud digital pancanadiense: Informe final (versión 1.0). Red canadiense para la evaluación de la salud digital.
Collins, GS, Moons, KGM y Riley, RD (2024). Declaración TRIPOD+AI: Guía actualizada para la presentación de informes sobre modelos de predicción clínica que utilizan métodos de regresión o aprendizaje automático. BMJ, 385, e078378. https://doi.org/10.1136/bmj-2023-078378
Damschroder, LJ, Reardon, CM, Opra Widerquist, MA y Lowery, J. (2022). El marco consolidado actualizado para la investigación de la implementación basado en la retroalimentación de los usuarios. Implementation Science, 17, artículo 75. https://doi.org/10.1186/s13012-022-01245-0
Consorcio FUTURE-AI. (Enero de 2025). Marco de trabajo FUTURE-AI: Directrices para una IA confiable en la atención médica.
Glasgow, RE, Harden, SM, Gaglio, B., Rabin, BA, Smith, ML, Porter, GC, Ory, MG y Estabrooks, PA (2019). Marco de planificación y evaluación RE-AIM: Adaptación a la nueva ciencia y práctica con una revisión de 20 años. Frontiers in Public Health, 7, artículo 64. https://doi.org/10.3389/fpubh.2019.00064
Salud Canadá. (15 de enero de 2025). Principios rectores de la IA para la salud (IA4S) pancanadiense. Gobierno de Canadá. https://www.canada.ca/en/health-canada/corporate/transparency/health-agreements/pan-canadian-ai-guiding-principles.html
HealthAI. (10 de diciembre de 2024). HealthAI presenta una comunidad de práctica para promover la IA responsable en el sector salud. https://www.healthai.agency/news/healthai-launches-community-of-practice-dec2024
Lekadir K, Frangi AF, Porras AR, Glocker B, Cintas C, Langlotz CP et al. FUTURE-AI: guía de consenso internacional para una inteligencia artificial confiable y desplegable en la atención médica. BMJ 2025; 388:e081554 doi:10.1136/bmj-2024-081554
Nundy S, Cooper LA, Mate KS. El objetivo quíntuple para la mejora de la atención sanitaria: un nuevo imperativo para promover la equidad en salud. JAMA. 2022;327(6):521-522.
Roppelt, JS, Kanbach, DK y Kraus, S. (2024). Inteligencia artificial en instituciones sanitarias: una revisión sistemática de la literatura sobre factores influyentes. Technology in Society, 76 , 102443.
Vasey, B., Nagendran, M., Campbell, B., Clifton, DA, Collins, GS, Denaxas, S., Denniston, AK, Faes, L., Geerts, B., Ibrahim, M., Liu, X., Mateen, BA, Mathur, P., McCradden, MD, Morgan, L., Ordish, J., Rogers, C., Saria, S., Ting, DSW, Watkinson, P., Weber, W., Wheatstone, P., & McCulloch, P. (2022). Guía de informes para la evaluación clínica en fase inicial de sistemas de apoyo a la toma de decisiones impulsados por inteligencia artificial: DECIDE-AI. Nature Medicine, 28, 924–933. https://doi.org/10.1038/s41591-022-01772-9
Organización Mundial de la Salud. (18 de enero de 2024). La OMS publica directrices sobre ética y gobernanza de la IA para modelos multimodales de gran tamaño. https://www.who.int/news/item/18-01-2024-who-releases-ai-ethics-and-governance-guidance-for-large-multi-modal-models