Marcs d’avaluació de la IA: cap a enfocaments més integrals i iniciatives globals prometedores

15/08/2025
 

La meva presentació titulada "Mesurant el que importa", Departament de Filosofia, Universitat Autònoma de Barcelona

 
 
 

Mai vaig imaginar que la meva primera xerrada a Barcelona tindria lloc en un departament de filosofia, donada la meva formació en salut i avaluació de programes. Però això és exactament el que va passar, i m'alegro que ho hagi fet. Pensant-hi bé, fins i tot tenia sentit, donada la meva afició a les bones preguntes  i als filòsofs; oh, sí que fan bones preguntes.

 
 
 

La jornada, titulada “AI, Feminism, and Public Health”,  va tenir lloc el 2 d'abril de 2025, a la Universitat Autònoma de Barcelona, ​​amb el Grup d'Estudis Humanístics en Ciència i Tecnologia, organitzat per Alice Rangel Teixeira.  La meva contribució va ser incloure una perspectiva d'avaluació del programa en aquesta discussió.

 
 
 

En aquest bloc, em centro en un dels meus missatges clau: la necessitat de marcs d'avaluació integrals de la IA, per què els marcs integrals continuen sent l'excepció i no la norma i exemples d'iniciatives prometedores. Comencem directament:

 
 
 

1. Per què necessitem marcs integrals per avaluar la IA?

 
 
 
 
 

Un moment que va fer reflexionar a la conferència va arribar quan Paula Petrone, cap de la Unitat de Salut Digital del Barcelona Supercomputing Center, va descriure la IA com un mirall, que ens ajuda a entendre'ns millor a nosaltres mateixos. El públic va reaccionar amb preguntes: alguns hi van estar d'acord, d'altres van assenyalar que la IA comet errors i "al·lucina", mentre que d'altres no hi estaven d'acord. El meu punt de vista era que la IA reflecteix simultàniament l'ambició humana de fer el bé i els biaixos arrelats a la societat, biaixos que provenen de l'exclusió històrica dels grups marginats. Sigui quina sigui la manera com percebeu aquesta metàfora, determinar quin tipus de mirall podria ser la IA requereix un examen exhaustiu d'aquesta.

 
 
 

Una revisió sistemàtica recent de Christine Jacob i els seus col·legues publicada el febrer de 2025 va indicar que, en el context de l'atenció sanitària, els marcs d'avaluació actuals per a la IA manquen d'exhaustivitat. Sovint es concentren en mètriques tècniques relacionades amb el model d'IA, mentre que passen per alt factors com l'impacte clínic, la integració amb el flux de treball del metge o la viabilitat ambiental i econòmica. Aquest enfocament limitat dificulta una comprensió completa de l'efecte de la IA en la nostra salut i benestar i, sense aquesta comprensió, les poblacions vulnerables poden passar per alt. En altres paraules, els marcs d'avaluació de la IA estrets podrien perjudicar l'equitat sanitària. de Christine Jacob i els seus col·legues, publicat el febrer de 2025, indicava que, en el context de l'atenció sanitària, els marcs d'avaluació actuals per a la IA manquen d'exhaustivitat. Sovint es concentren en mètriques tècniques relacionades amb el model d'IA, mentre que passen per alt factors com l'impacte clínic, la integració amb el flux de treball del metge o la viabilitat ambiental i econòmica. Aquest enfocament limitat dificulta una comprensió completa de l'efecte de la IA en la nostra salut i benestar i, sense aquesta comprensió, les poblacions vulnerables poden passar per alt. En altres paraules, els marcs d'avaluació de la IA estrets podrien perjudicar l'equitat sanitària.

 
 
 
 
 

2. Per què la majoria dels marcs d'avaluació de la IA existents manquen d'exhaustivitat?

 
 
 

Molts tipus diferents d'expertesa estan involucrades al llarg del cicle de vida de la IA, des del desenvolupament i les proves fins al desplegament i la postdesplegament. De la mateixa manera, els que avaluen la IA provenen de diversos camps que tradicionalment han treballat de forma aïllada.

 
 
 
 

Prenent com a exemple científics de dades i avaluadors de programes, Peter York , vicepresident d'Analytic Solutions a BCT Partners, i Michael Bamberger, consultor independent d'avaluació del desenvolupament, observen que els dos grups treballen en unitats organitzatives diferents, utilitzen eines diferents, assisteixen a conferències diferents i pertanyen a associacions professionals diferents. Com vaig aprendre al meu curs d'aprenentatge automàtic amb Peter York, els camps també tenen fonaments filosòfics fonamentalment diferents. Un té les seves arrels en l'estadística freqüentista i l'altre és bayesià.Un minimitza el biaix de selecció però perpetua les desigualtats de les mitjanes; l'altre pot oferir recomanacions personalitzades però pot perpetuar els biaixos de selecció (detalls a la meva publicació anterior ) . Una minimitza el biaix de selecció però perpetua les desigualtats de les mitjanes; l'altra pot oferir recomanacions personalitzades però pot perpetuar els biaixos de selecció.(detalls a la meva publicació anterior) . (detalls a la meva publicació anterior) .

 
 
 

Esforços recents, a través dellibres , números especials de revistes i taules rodones de conferències d'avaluació— s'han centrat principalment en l'aplicació d'eines d'IA dins de l'avaluació de programes. Però la col·laboració transdisciplinària per trencar els silos i codesenvolupar marcs d'avaluació d'IA des de zero continua sent poc freqüent. llibres , números especials de revistes itaules rodones de conferències d'avaluació—s'han centrat principalment en l'aplicació d'eines d'IA dins de l'avaluació de programes. Però la col·laboració transdisciplinària per trencar els silos i codesenvolupar marcs d'avaluació d'IA des de zero continua sent poc freqüent.

 
 
 

Suggereixo que tots els implicats (enginyers informàtics, científics de dades, clínics, avaluadors de programes i professionals d'altres camps) ampliïn la nostra comprensió de l'avaluació  i participin en el treball transdisciplinari. Això significa integrar activament coneixements i mètodes de diferents disciplines per crear alguna cosa nova que cap dels camps individuals no podria aconseguir per si sol, cosa que en última instància permetrà el desenvolupament de marcs d'avaluació de la IA més complets.

 
 
 
 
 

3. El camí a seguir: marcs d'avaluació de la IA prometedors i iniciatives globals

 
 
 

Hi ha alguns esforços prometedors que estan sorgint pel que fa al desenvolupament de marcs integrals d'avaluació de la IA. En una entrada anterior del blog , vaig parlar deles directrius globals FUTUR.IA  com a exemple. A la conferència vaig esmentar dos altres exemples: el marc IMPACTS i el Projecte AHEAD.Directrius globals  com a exemple. A la conferència vaig esmentar dos altres exemples: el marc IMPACTS i el Projecte AHEAD.

 
 
 

3.1 Marc IMPACTS per a l'avaluació de la IA

 
 
 
 

Dins del marc IMPACTS de Jacob i els seus col·legues, els criteris s'organitzen en set grups clau, cadascun dels quals correspon a una lletra de l'acrònim:

 
 
 
 
 

o   I —integració, interoperabilitat i flux de treball;

 

o   M —monitorització, governança i rendició de comptes;

 

o   P —mètriques de rendiment i qualitat;

 

o   A —acceptabilitat, confiança i formació;

 

o   C —avaluació de costos i econòmica;

 

o   T —seguretat i transparència tecnològica;

 

o   S —escalabilitat i impacte.

 
 
 

Podeu llegir els detalls al seu article d'accés obert .

 

 

 

3.2 Projecte AHEAD al Centre de Supercomputació de Barcelona

 
 
 

AHEAD significa AI for Health: Avaluation of Applications & Datasets (IA per a la Salut: Avaluació d'Aplicacions i Conjunts de Dades). Aquest projecte reuneix 14 socis de diversos camps, com ara medicina i biomedicina, ètica, desenvolupament d'intel·ligència artificial (IA), estudis de gènere, dret, sociologia, psicologia i enginyeria de programari, amb l'objectiu d'establir estàndards per a la implementació responsable de la IA en l'atenció mèdica ( Font ) .

 
 
 

El Barcelona Supercomputing Center lidera la coordinació d'aquest projecte europeu. Fundat el 2005, el Barcelona Supercomputing Center s'especialitza en computació d'alt rendiment (HPC) i gestiona el MareNostrum , un dels superordinadors més potents d'Europa.

 
 
 
 
 
 
Informes des del futur (també conegut com el Barcelona Supercomputing Center): De camí per conèixer el projecte AHEAD.
 
 
 

Vaig tenir el plaer de conèixer alguns dels membres de l'equip de Project AHEAD, súper amables i perspicaços, gràcies a una amiga, Julianna Angeova, que em va enviar un enllaç sobre el projecte. Asseguda a la seva oficina d'alta tecnologia amb unes vistes precioses, vaig escoltar com Maria José Rementeria, líder de l'equip d'Anàlisi d'Enllaços Socials del BSC, explicava la història d'aquesta jove iniciativa. Claudia Rosas i Simona Giardina van proporcionar amablement contextos addicionals sobre els objectius a curt i llarg termini del projecte.

 
 
 

El que realment em va impressionar va ser la seva visió d'una comunitat veritablement transdisciplinària. Fins i tot vam parlar d'antropologia, cosa que va ser música per a les meves orelles. " El nostre objectiu és que la gent comprengui realment el que fa un altre camp i aprengui el seu enfocament [per resoldre problemes], participant en un veritable treball transdisciplinari ", va afirmar Maria José. I aquest és el punt.

 
 
 
El nostre objectiu és que les persones comprenguin realment el que fa un altre camp i aprenguin el seu enfocament [per resoldre problemes], participant en un veritable treball transdisciplinari. Maria José Rementeria
 
 
 

Estic especialment emocionat de veure cap a on va aquest projecte, ja que estic segur que construirà ponts amb altres persones que impulsen una IA responsable i fiable en l'atenció mèdica, com ara l' Agència Global per a la IA Responsable en Salut  ( nota al marge: si voleu unir-vos a la nostra Comunitat de Pràctica, podeu presentar la vostra sol·licitud aquí) .

 
 
 
 
 
 
 
 

Crida a l'acció

 
 
 

Quan el meu estimat amic Jesús Martínez va sentir que la meva xerrada es feia al departament de filosofia, no va semblar sorprès i simplement va dir: "Necessitem la filosofia més que mai". En aquest món en constant evolució, hem de fer una pausa i fer bones preguntes, i fer les preguntes correctes sobre l'avaluació de la IA no és només una tasca tècnica; és filosòfica, política i antropològica.

 
 
 

Recursos:

 
 
 

Bohni Nielsen, S., Mazzeo Rinaldi, F., i Petersson, GJ (Eds.). (2024). Intel·ligència artificial i avaluació: tecnologies emergents i les seves implicacions per a l'avaluació (1a ed.). Routledge. https://doi.org/10.4324/9781003512493

 
 
 

Jacob C, Brasier N, Laurenzi E, Heuss S, Mougiakakou S, Cöltekin A, Peter M

 

Marc d'IA per a IMPACTES per avaluar els impactes a llarg termini en el món real de les eines clínics basades en IA: revisió sistemàtica i síntesi narrativa, J Med Internet Res 2025;27:e67485, URL: https://www.jmir.org/2025/1/e67485

 

DOI: 10.2196/67485

 
 
 

Lekadir K, Frangi AF, Porras AR, Glocker B, Cintas C, Langlotz CP et al. FUTURE-AI: guia de consens internacional per a una intel·ligència artificial fiable i desplegable en l'atenció mèdica BMJ 2025; 388: e081554 doi: 10.1136/bmj-2024-081554

 
 
 

Noves direccions per a l'avaluació: volum 2023, número 178-179

 
 
 
 

Salehi, R. Desbloquejant el potencial: Convergència de l'avaluació i la ciència de dades, novembre de 2023, disponible: https://tinyurl.com/255h54pr

 
 
 

Salehi, R. Posada en pràctica de les directrius FUTURE-AI per avaluar la IA en l'atenció mèdica: on poden contribuir els experts en seguiment i avaluació (M&A)?, març de 2025.

 
 
 

York, P., i Bamberger, M. (març de 2020). Mesura de resultats i impacte a l'era del big data . Fundació Rockefeller. https://www.rockefellerfoundation.org/wp-content/uploads/Measuring-results-and-impact-in-the-age-of-big-data-by-York-and-Bamberger-March-2020.pdf

 
 
 

L'Agència de Qualitat i Avaluació Sanitàries de Catalunya (AQuAS), Guia d'avaluació de tecnologies digitals de salut que utilitzen intel·ligència artificial (IA), novembre de 2024. https://tinyurl.com/r8y4w9bw