Operativitzar les directrius FUTURE-AI per avaluar la IA en l’àmbit sanitari: on poden contribuir els experts en seguiment i avaluació (M&E)?

Si creiem que la IA pot revolucionar l'atenció mèdica als pacients, la pregunta que sorgeix és: per què l'adopció clínica de solucions emergents d'IA continua sent un repte malgrat els grans avenços en la recerca en intel·ligència artificial (IA) mèdica? Molts factors contribueixen a la manca d'adopció, des del context macroeconòmic fins a la preparació tecnològica, organitzativa, reguladora i dels proveïdors de serveis sanitaris.Entre ells, la fiabilitat de la IA és un problema crucial que hem d'abordar, i per abordar-ho, ho heu endevinat, hem de mesurar-lo . I per mesurar-lo, hem de definir-lo i avaluar-lo. Entre elles, la fiabilitat de la IA és un tema crucial que hem d'abordar, i per tal d'abordar-ho, ho heu endevinat, hem de mesurar-ho . I per mesurar-ho, hem de definir-ho i avaluar-ho.
En aquest article, analitzaré el marc FUTURE-AI a través d'una lent d'avaluació de programes i respondré sis preguntes clau al respecte:
-
Què és FUTURE-AI?
-
Hi havia experts en avaluació de programes que participaven en aquest consorci?
-
Què volen dir quan utilitzen la paraula «avaluació»?
-
Quin és el valor afegit d'aquest marc de treball per avaluar la IA en l'àmbit de la salut?
-
En quines etapes i com poden els experts en avaluació de programes millorar i contribuir a aquestes directrius?
-
Quina és la crida a l'acció?
El primer autor, el Dr. Karim Lekadir, va presentar aquest marc de treball durant Four Years From Now.la conferència Four Years From Now (4YFN) durant el Mobile World Congress a Barcelona el 4 de març, l'esdeveniment més gran del món per a startups, inversors i innovadors que donen forma al futur de la connectivitat, amb un gran èmfasi en la salut i la tecnologia sanitària. Veure les directrius presentades en directe va proporcionar més context i exemples pràctics sobre com posar en pràctica les directrius.conferència durant el Mobile World Congress a Barcelona el 4 de març, el major esdeveniment mundial per a startups, inversors i innovadors que donen forma al futur de la connectivitat, amb un gran èmfasi en la salut i la tecnologia sanitària. Veure les directrius presentades en directe va proporcionar més context i exemples pràctics sobre com posar en pràctica les directrius.
1. Què és FUTURE-AI?
El marc FUTURE-AI , publicat el gener de 2025, és un marc internacional basat en el consens que proporciona orientació per al desenvolupament i la implementació d'eines d'IA fiables en l'àmbit de la salut. Establit per un grup de 117 experts interdisciplinaris de 50 països, el marc es basa en sis principis clau: Justícia , Universalitat , Traçabilitat , Usabilitat , Robustesa i Explicabilitat . Per posar en pràctica aquests principis, el grup ha descrit 30 bones pràctiques que cobreixen el cicle de vida de la IA en l' àmbit de la salut, des del disseny, el desenvolupament i la validació fins a la implementació i el seguiment.
2. Hi havia experts en avaluació de programes involucrats en aquest consorci?
La llista de membres del consorci està disponible públicament i demostra una àmplia experiència en ciència de dades, recerca mèdica, enginyeria informàtica, ètica i camps relacionats. Tanmateix, una cerca de termes com ara "avaluació" o "avaluador" no va donar cap representació explícita dels professionals de l'avaluació de programes.
Això no vol dir necessàriament que no hi hagués experiència en avaluació de programes, sinó que aquesta experiència no estava etiquetada de manera destacada o, més probablement, no estava associada a la "Recerca" (si encara us pregunteu si la recerca i l'avaluació són diferents o el mateix, feu-vos un favor i llegiu Wanzer, DL (2021). Què és l'avaluació?: Perspectives de com l'avaluació difereix (o no) de la recerca). American Journal of Evaluation , 42(1), 28-46. O bé, Google, Research and Evaluation Hour Watch de Hallie Preskill, FSG-Social Impact Advisors.) American Journal of Evaluation , 42(1), 28-46. O bé, Google, Research and Evaluation Hour Watch de Hallie Preskill, FSG-Social Impact Advisors.)
3. Què volen dir quan utilitzen la paraula «avaluació»?
En el context de la IA i l'avaluació, la paraula " avaluació " significa coses diferents segons a qui li preguntis. Això pot ser evident per a alguns, però decideixo esmentar-ho perquè sovint he vist malentesos i gent que parla amb propòsits contradictoris:
-
Els enginyers informàtics/científics de dades/desenvolupadors podrien estar parlant d'avaluació de models: estem parlant de precisió, sensibilitat i especificitat del model, estem parlant de F1score, Dice, etc.
-
Els clínics poden parlar de diferents tipus d'avaluació, com ara la viabilitat, la seguretat, els resultats de salut, l'experiència del pacient o l'eficiència. Podríem parlar d'investigació operativa, optimització de processos o control de qualitat.
-
Qualsevol podria estar parlant d'avaluació clínica (un terme molt específic si la IA es considera un dispositiu mèdic a la vostra jurisdicció), que és l'avaluació i l'anàlisi de dades clíniques relacionades amb un dispositiu mèdic per tal de verificar-ne la seguretat i el rendiment clínic.
-
I els avaluadors de programes? Parlen d'una sèrie de temes, l'impacte de la IA en pacients, professionals clínics, flux de treball, cost, eficiència, canvi organitzatiu, resultats de salut de la població i sostenibilitat ambiental. Parlem de Teories del Canvi, Marc RE-AIM , Marc Consolidat per a la Recerca d'Implementació i avaluació participativa amb pacients, etc.
A les directrius de FUTURE-AI, el terme "avaluació" s'ha utilitzat per referir-se tant a la validació del model com a l'avaluació de l'impacte del model d'IA en usuaris i professionals clínics. Em va agradar veure el número 5 a la diapositiva "Missatges per emportar" del Dr. Lekadir.

4. Quin és el valor afegit d'aquest marc per avaluar la IA en l'atenció mèdica?
Avaluar la IA en l'atenció sanitària no és senzill. Actualment, no hi ha cap marc universal o estàndard per avaluar la IA en l'atenció sanitària. Les teories, models i marcs existents sobre l'avaluació de la IA tenen finalitats diferents:
-
Alguns són d'abast regional (per exemple,Principis rectors pancanadencs d'IA per a la salut )🇨🇦 Principis rectors de la IA pancanadenca per a la salut
-
Alguns són marcs més amplis aplicats a la salut digital o a intervencions basades en la tecnologia (per exemple, el Marc i el conjunt d'eines d'avaluació de la salut digital pancanadenc)
-
Alguns se centren en informar sobre les intervencions d'IA (per exemple, TRIPOD-AI, DECIDE-AI),
-
Alguns emfatitzen els aspectes ètics i reguladors (per exemple, les directrius de l'OMS sobre ètica i governança de la IA per a grans models multimodals ).
Les directrius de FUTURE-AI són:
-
Específic per a l'atenció sanitària
-
Se centra específicament en la IA en lloc de la tecnologia digital en general
-
Ofereix una perspectiva global en lloc de limitar-se a una jurisdicció en particular
-
Cobreix el cicle de vida complet de les eines d'IA, des del disseny i desenvolupament fins a la validació i el desplegament
-
Ha considerat les implicacions pràctiques de la implementació d'intervencions d'IA en sistemes sanitaris amb pocs recursos .
5. En quines etapes i com poden els experts en avaluació de programes millorar i contribuir a aquestes directrius?
Hi ha diversos llocs lògics dins d'aquest marc on els professionals del seguiment i l'avaluació (S&A) poden fer contribucions significatives. A continuació es destaquen els punts clau, però no és una llista exhaustiva.
A. Fase de disseny del desenvolupament de la IA
G7: Investigació de qüestions socials i ambientals: Actualment, aquesta recomanació és àmplia. A més dels factors descrits en el marc, es podria establir un pla de seguiment i avaluació iteratiu i flexible des del principi per examinar els impactes a llarg termini en la salut de la població , el medi ambient i la societat de les "eines d'IA fiables". Depenent de l'abast de la intervenció de la IA (micro, miso, macro), no totes les solucions d'IA tindran implicacions directes per a la salut de la població, però tenint en compte la salut de la població, és una de les...quíntuples objectius dels sistemes de salut , mereix una menció explícita a les directrius. quíntuples objectius dels sistemes de salut, mereix una menció explícita a les directrius.

B. Fase de validació
Els experts en avaluació de programes estan ben posicionats per avaluar la usabilitat per a pacients i professionals clínics, el cost, l'eficiència, la seguretat i la formació dels usuaris finals . Aquests aspectes s'alineen especialment bé amb els principis d'usabilitat (4,5) i explicabilitat (2) de FUTURE-AI.
Necessitem més que enquestes i grups focals en la fase de proves d'usabilitat; necessitem una participació significativa dels pacients que podria començar en la fase de disseny. Els pacients podrien codessar solucions d'IA, utilitzant mètodes com l'avaluació participativa i els grups assessors de recerca de pacients (vegeu Banerjee, Alsop, Jones i Cardinal, 2022 per a una discussió).
C. Fase de desplegament en entorns sanitaris
En aquesta fase, les àrees clau per als avaluadors de programes inclouen la integració amb els fluxos de treball clínics (Universalitat 4) i la implementació de mètodes creatius i centrats en el pacient per obtenir comentaris dels usuaris (Traçabilitat 3).
A més, integrar l'experiència en avaluació de programes a l'equip de supervisió multidisciplinari és essencial per garantir que l'avaluació doni suport tant a la rendició de comptes com a l'aprenentatge , dos pilars fonamentals de la disciplina.
D. Avaluació de les conseqüències no intencionades i a llarg termini del desplegament posterior a la IA
Aquest és un punt complicat i forma part d'un debat més ampli. Les avaluacions posteriors al desplegament són vitals per entendre què funciona, on, per a qui i en quines circumstàncies. Els sistemes sanitaris estan destinats a ser sistemes d'aprenentatge , però en aquest context, les modificacions posteriors al llançament poden ser complicades o lentes. Els autors de les directrius de FUTURE-AI assenyalen que, de moment, les regulacions actuals impedeixen les modificacions posteriors al llançament perquè invalidarien formalment la validació inicial del fabricant.
És una falsa dicotomia veure les regulacions com "el problema que dificulta la innovació i l'aprenentatge" o "allò que ens protegirà". El que sabem és que la regulació s'està produint, és necessària, és lenta i és complicada.

Una de les conclusions que vaig treure del 4YFN va ser que preguntar-se si hauríem de regular o no la IA no és la pregunta correcta. Una pregunta millor? Com elaborar regulacions que puguin evolucionar més ràpidament?
Espais com la Comunitat de Pràctica de l'Agència Global per a la IA Responsable són un bon lloc per participar en aquests debats i col·laborar per trobar solucions (per exemple, a la nostra última reunió vam parlar de zones de proves reguladores).
6. Crida a l'acció?
Les directrius de FUTURE-AI representen un esforç global significatiu. Em va agradar veure que les directrius estan pensades per ser un document dinàmic obert a comentaris. Mirant-ho des d'una perspectiva de seguiment i avaluació, ofereixo els suggeriments següents:
Per a la xarxa FUTURE-AI
-
Enfortir el paper dels pacients dins de les directrius com a possibles codissenyadors de solucions d'IA.
-
Esmentar explícitament els resultats de salut de la població (un dels quíntuples objectius dels sistemes de salut) dins del marc.
-
Col·laborar (o continuar col·laborant) amb experts en seguiment i avaluació (M&A) per a les futures iteracions d'aquestes valuoses directrius. Els professionals del M&A també poden donar suport a la creació de casos d'ús per implementar aquestes directrius en diversos contextos.
Per a avaluadors de programes/projectes:
-
Llegeix l'article i explora el lloc web del consorci aquí. També han iniciat una sèrie de seminaris web , que suposo que aprofundiran en cada concepte. També han iniciat una sèrie de seminaris web , que suposo que aprofundiran en cada concepte.
Per a desenvolupadors i implementadors d'IA
-
Involucrar experts en avaluació de programes, l'experiència dels quals pugui complementar la ciència de dades, l'enginyeria informàtica i l'experiència clínica. Involucrar-los des de la fase inicial del disseny. Poden ajudar els equips interdisciplinaris a navegar per les complexitats de la IA, garantint que els esforços d'avaluació siguin robustos, pràctics, específics per al context, culturalment apropiats i rellevants.
Per a tothom

-
Aprèn sobre l'Agència Global per a una IA Responsable i sol·licita unir-te a la nostra Comunitat de Pràctica per mantenir-te involucrat en debats rellevants relacionats amb la IA fiable i les regulacions.
-
Un altre espai a tenir en compte és el projecte europeu AHEAD (AI for Health: Evaluation of Applications & Datasets), coordinat pel Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS). Compartiré el que aprengui sobre aquest projecte en una futura publicació.
-
Uneix-te a aquesta conversa a LinkedIn
-
Envieu-me un correu electrònic a Roxana@vitus.ca si voleu col·laborar per fer avançar aquestes idees o si teniu un bon recurs per compartir.
Recursos
Banerjee, S., Alsop, P., Jones, L., i Cardinal, RN (2022). Participació del pacient i del públic per generar confiança en la intel·ligència artificial: un marc, eines i estudis de casos. Patterns, 3 (6). https://doi.org/10.1016/j.patter.2022.100550
Brual, J., Rouleau, G., Fleury, C., Strom, M., Koshy, M., Rios, P., Bhattacharyya, O., Abejirinde, IO (2022). El marc i el conjunt d'eines pancanadencs d'avaluació de la salut digital: informe final (versió 1.0). Xarxa canadenca per a l'avaluació de la salut digital.
Collins, GS, Moons, KGM i Riley, RD (2024). Declaració TRIPOD+AI: Guia actualitzada per a la presentació de models de predicció clínica que utilitzen mètodes de regressió o aprenentatge automàtic. BMJ, 385, e078378. https://doi.org/10.1136/bmj-2023-078378
Damschroder, LJ, Reardon, CM, Opra Widerquist, MA, i Lowery, J. (2022). El Marc Consolidat per a la Recerca en Implementació actualitzat basat en els comentaris dels usuaris. Implementation Science, 17, Article 75. https://doi.org/10.1186/s13012-022-01245-0
Consorci FUTURE-AI. (Gener de 2025). Marc de FUTURE-AI: Pautes per a una IA fiable en l'atenció sanitària.
Glasgow, RE, Harden, SM, Gaglio, B., Rabin, BA, Smith, ML, Porter, GC, Ory, MG, i Estabrooks, PA (2019). Marc de planificació i avaluació RE-AIM: adaptació a la nova ciència i pràctica amb una revisió de 20 anys. Frontiers in Public Health, 7, article 64. https://doi.org/10.3389/fpubh.2019.00064
Health Canada. (15 de gener de 2025). Principis rectors pancanadencs de la IA per a la salut (IA4H). Govern del Canadà. https://www.canada.ca/en/health-canada/corporate/transparency/health-agreements/pan-canadian-ai-guiding-principles.html
HealthAI. (10 de desembre de 2024). HealthAI presenta una comunitat de pràctica per promoure la IA responsable en salut. https://www.healthai.agency/news/healthai-launches-community-of-practice-dec2024
Lekadir K, Frangi AF, Porras AR, Glocker B, Cintas C, Langlotz CP et al. FUTURE-AI: guia de consens internacional per a una intel·ligència artificial fiable i desplegable en l'atenció mèdica BMJ 2025; 388: e081554 doi: 10.1136/bmj-2024-081554
Nundy S, Cooper LA, Mate KS. El quíntuple objectiu de millora de l'atenció sanitària: un nou imperatiu per promoure l'equitat sanitària. JAMA. 2022;327(6):521-522.
Roppelt, JS, Kanbach, DK, i Kraus, S. (2024). Intel·ligència artificial en institucions sanitàries: una revisió sistemàtica de la literatura sobre els factors d'influència.Technology in Society, 76 , 102443. Tecnologia a la societat, 76 , 102443.
Vasey, B., Nagendran, M., Campbell, B., Clifton, DA, Collins, GS, Denaxas, S., Denniston, AK, Faes, L., Geerts, B., Ibrahim, M., Liu, X., Mateen, BA, Mathur, P., McCradden, MD, Morgan, L., Ordish, J., Rogers, C., Saria, S., Ting, DSW, Watkinson, P., Weber, W., Wheatstone, P., i McCulloch, P. (2022). Pauta d'informes per a l'avaluació clínica en fase inicial de sistemes de suport a la decisió impulsats per intel·ligència artificial: DECIDE-AI. Nature Medicine, 28, 924–933. https://doi.org/10.1038/s41591-022-01772-9
Organització Mundial de la Salut. (18 de gener de 2024). L'OMS publica una guia d'ètica i governança de la IA per a grans models multimodals. https://www.who.int/news/item/18-01-2024-who-releases-ai-ethics-and-governance-guidance-for-large-multimodal-models