Marcos de evaluación de la IA: Hacia enfoques más integrales e iniciativas globales prometedoras

15/08/2025
 

Mi presentación titulada "Medir lo que importa", Departamento de Filosofía, Universidad Autónoma de Barcelona

 
 
 

Jamás imaginé que mi primera charla en Barcelona tendría lugar en un departamento de filosofía, dada mi formación en salud y evaluación de programas. Pero así fue, y me alegro. Pensándolo bien, incluso tenía sentido, dada mi afición por las buenas preguntas  y los filósofos; ¡vaya si hacen buenas preguntas!

 
 
 

La conferencia, titulada “IA, feminismo y salud pública”,  tuvo lugar el 2 de abril de 2025 en la Universitat Autònoma de Barcelona, ​​con el Grup d'Estudis Humanístics en Ciència i Tecnologia, organizada por Alice Rangel Teixeira.  Mi contribución fue incluir una perspectiva de evaluación de programas en esta discusión.

 
 
 

En este blog, me centro en uno de mis mensajes clave: la necesidad de marcos de evaluación de IA integrales, por qué estos marcos siguen siendo la excepción y no la norma , y ​​ejemplos de iniciativas prometedoras. ¡Comencemos!

 
 
 

1. ¿Por qué necesitamos marcos integrales para evaluar la IA?

 
 
 
 
 

Un momento revelador de la conferencia se produjo cuando Paula Petrone, jefa de la Unidad de Salud Digital del Centro de Supercomputación de Barcelona, ​​describió la IA como un espejo que nos ayuda a comprendernos mejor. El público reaccionó con preguntas: algunos estuvieron de acuerdo, otros señalaron que la IA comete errores y "alucina", mientras que otros discreparon. En mi opinión, la IA refleja simultáneamente la ambición humana de hacer el bien y los sesgos arraigados en la sociedad, sesgos que provienen de la exclusión histórica de los grupos marginados. Independientemente de cómo se interprete esta metáfora, determinar qué tipo de espejo podría ser la IA requiere un análisis exhaustivo de la misma.

 
 
 

Una reciente revisión sistemática realizada por Christine Jacob y sus colegas, publicada en febrero de 2025, indicó que, en el contexto de la atención médica, los marcos de evaluación actuales para la IA carecen de exhaustividad. Con frecuencia, se centran en métricas técnicas relacionadas con el modelo de IA, pasando por alto factores como el impacto clínico, la integración con el flujo de trabajo del médico o la viabilidad ambiental y económica. Este enfoque limitado dificulta una comprensión completa del efecto de la IA en nuestra salud y bienestar, y sin esta comprensión, las poblaciones vulnerables podrían quedar desatendidas. En otras palabras, los marcos de evaluación de la IA demasiado restrictivos podrían perjudicar la equidad en salud. 

 
 
 
 
 

2. ¿Por qué la mayoría de los marcos de evaluación de IA existentes carecen de exhaustividad?

 
 
 

En el ciclo de vida de la IA intervienen diversos tipos de conocimientos especializados, desde el desarrollo y las pruebas hasta la implementación y la fase posterior a la implementación. Del mismo modo, quienes evalúan la IA provienen de diversos campos que tradicionalmente han trabajado de forma aislada.

 
 
 
 

Tomando como ejemplo a los científicos de datos y a los evaluadores de programas, Peter York , vicepresidente de Soluciones Analíticas de BCT Partners, y Michael Bamberger, consultor independiente en evaluación del desarrollo, observan que ambos grupos trabajan en unidades organizativas distintas, utilizan herramientas diferentes, asisten a conferencias distintas y pertenecen a asociaciones profesionales diferentes. Como aprendí en mi curso de Aprendizaje Automático con Peter York, estos campos también tienen fundamentos filosóficos fundamentalmente diferentes. Uno tiene sus raíces en la estadística frecuentista, y el otro es bayesiano. Uno minimiza el sesgo de selección, pero perpetúa las desigualdades de los promedios; el otro puede ofrecer recomendaciones personalizadas, pero puede perpetuar los sesgos de selección (más detalles en mi publicación anterior) .

 
 
 

Los esfuerzos recientes —a través de libros , números especiales de revistas y paneles en conferencias sobre evaluación— se han centrado principalmente en la aplicación de herramientas de IA en la evaluación de programas. Sin embargo, la colaboración transdisciplinaria para romper las barreras entre disciplinas y desarrollar conjuntamente marcos de evaluación de IA desde cero sigue siendo poco común.

 
 
 

Sugiero que todos los involucrados —ingenieros informáticos, científicos de datos, médicos, evaluadores de programas y profesionales de otros campos— amplíen su comprensión de la evaluación  y participen en un trabajo transdisciplinario. Esto implica integrar activamente conocimientos y métodos de diferentes disciplinas para crear algo nuevo que ninguna de ellas podría lograr por sí sola, lo que, en última instancia, permitirá el desarrollo de marcos de evaluación de IA más completos.

 
 
 
 
 

3. El camino a seguir: Marcos de evaluación de IA prometedores e iniciativas globales

 
 
 

Están surgiendo iniciativas prometedoras para desarrollar marcos de evaluación de IA integrales. En una entrada anterior del blog , comenté las Directrices Globales de FUTURE.AI  como ejemplo. En la conferencia mencioné otros dos ejemplos: el marco IMPACTS y el Proyecto AHEAD.

 
 
 

3.1 Marco IMPACTS para la evaluación de la IA

 
 
 
 

Dentro del marco IMPACTS de Jacob y sus colegas, los criterios se organizan en siete grupos clave, cada uno correspondiente a una letra del acrónimo:

 
 
 
 
 

o   I —integración, interoperabilidad y flujo de trabajo;

 

o   M —supervisión, gobernanza y rendición de cuentas;

 

o   P —métricas de rendimiento y calidad;

 

o   A —aceptabilidad, confianza y capacitación;

 

o   C — evaluación de costos y económica;

 

o   T —seguridad y transparencia tecnológica;

 

o   S — escalabilidad e impacto.

 
 
 

Puedes leer los detalles en su artículo de acceso abierto .

 

 

 

3.2 Proyecto AHEAD en el Centro de Supercomputación de Barcelona

 
 
 

AHEAD significa IA para la Salud: Evaluación de Aplicaciones y Conjuntos de Datos . Este proyecto reúne a 14 socios de diversos campos, entre ellos medicina y biomedicina, ética, desarrollo de inteligencia artificial (IA), estudios de género, derecho, sociología, psicología e ingeniería de software, con el objetivo de establecer estándares para la implementación responsable de la IA en la atención médica ( Fuente ) .

 
 
 

El Centro de Supercomputación de Barcelona lidera la coordinación de este proyecto europeo. Fundado en 2005, el Centro de Supercomputación de Barcelona está especializado en computación de alto rendimiento (HPC) y gestiona MareNostrum , uno de los superordenadores más potentes de Europa.

 
 
 
 
 
 
Informando desde el futuro (también conocido como el Centro de Supercomputación de Barcelona): De camino a conocer el proyecto AHEAD.
 
 
 

Tuve el placer de conocer a algunos de los miembros del equipo de Project AHEAD, personas muy amables y perspicaces, gracias a una amiga, Julianna Angeova, que me envió un enlace sobre el proyecto. Sentada en su oficina de alta tecnología con hermosas vistas, escuché a Maria José Rementeria, líder del equipo de Social Link Analytics de BSC, explicar la historia de esta joven iniciativa. Claudia Rosas y Simona Giardina amablemente brindaron información adicional sobre los objetivos a corto y largo plazo del proyecto.

 
 
 

Lo que realmente me impresionó fue su visión de una comunidad verdaderamente transdisciplinaria. Incluso hablamos de antropología, lo cual me encantó. « Nuestro objetivo es que la gente comprenda realmente lo que hace otro campo y aprenda su enfoque [para resolver problemas], participando en un trabajo transdisciplinario genuino », afirmó María José. Y ese es el punto.

 
 
 
Nuestro objetivo es que las personas comprendan realmente lo que hace otro campo y aprendan su enfoque [para resolver problemas], participando en un verdadero trabajo transdisciplinario. Maria José Rementeria
 
 
 

Me entusiasma especialmente ver cómo evoluciona este proyecto, ya que estoy seguro de que tenderá puentes con otros que impulsan una IA responsable y fiable en la atención sanitaria, como la Agencia Global para la IA Responsable en la Salud  ( nota al margen: si quieres unirte a nuestra Comunidad de Práctica, puedes presentar tu solicitud aquí) .

 
 
 
 
 
 
 
 

Llamada a la acción

 
 
 

Cuando mi querido amigo Jesús Martínez supo que mi charla se impartiría en el departamento de filosofía, no pareció sorprendido y simplemente dijo: «Necesitamos la filosofía más que nunca». En este mundo vertiginoso, necesitamos detenernos y plantearnos buenas preguntas; y formular las preguntas correctas sobre la evaluación de la IA no es solo un trabajo técnico, sino también filosófico, político y antropológico.

 
 
 

Recursos:

 
 
 

Bohni Nielsen, S., Mazzeo Rinaldi, F., & Petersson, GJ (Eds.). (2024). Inteligencia artificial y evaluación: tecnologías emergentes y sus implicaciones para la evaluación (1.ª ed.). Routledge. https://doi.org/10.4324/9781003512493

 
 
 

Jacob C, Brasier N, Laurenzi E, Heuss S, Mougiakakou S, Cöltekin A, Peter M

 

Marco de trabajo AI for IMPACTS para evaluar los impactos a largo plazo en el mundo real de las herramientas clínicas basadas en IA: revisión sistemática y síntesis narrativa, J Med Internet Res 2025;27:e67485, URL: https://www.jmir.org/2025/1/e67485

 

DOI: 10.2196/67485

 
 
 

Lekadir K, Frangi AF, Porras AR, Glocker B, Cintas C, Langlotz CP et al. FUTURE-AI: guía de consenso internacional para una inteligencia artificial confiable y desplegable en la atención médica. BMJ 2025; 388:e081554 doi:10.1136/bmj-2024-081554

 
 
 

Nuevas direcciones para la evaluación: Volumen 2023, números 178-179

 
 
 
 

Salehi, R. Desbloqueando el potencial: Convergencia de la evaluación y la ciencia de datos, noviembre de 2023, disponible en: https://tinyurl.com/255h54pr

 
 
 

Salehi, R. Puesta en práctica de las directrices FUTURE-AI para evaluar la IA en la atención sanitaria: ¿Dónde pueden contribuir los expertos en seguimiento y evaluación (M&E)?, marzo de 2025.

 
 
 

York, P., y Bamberger, M. (2020, marzo). Medición de resultados e impacto en la era del big data . Fundación Rockefeller. https://www.rockefellerfoundation.org/wp-content/uploads/Measuring-results-and-impact-in-the-age-of-big-data-by-York-and-Bamberger-March-2020.pdf

 
 
 

Agencia de Calidad y Evaluación Sanitaria de Cataluña (AQuAS), Guía de evaluación de tecnologías sanitarias digitales que utilizan inteligencia artificial (IA), noviembre de 2024. https://tinyurl.com/r8y4w9bw