“Els recents avanços en Intel·ligència Artificial basada en sistemes que requereixen enormes quantitats de dades i càlcul, com GPT-4, han posat de manifest les dificultats per a comprendre les capacitats i febleses d'aquests sistemes d'Intel·ligència Artificial. No sabem on és segur utilitzar aquests sistemes ni com podrien millorar-se. I això es deu a la forma en què s'avalua avui la IA, que requereix d'un canvi urgent”.
Darrere d'aquestes paraules es troben 16 dels principals experts i expertes en Intel·ligència Artificial de tot el món, entre ells els investigadors de l'Institut VRAIN de la Universitat Politècnica de València (UPV), José Hernández-Orallo, Fernando Martínez Plumed i Wout Schellaert.
Coordinats pel professor Hernández-Orallo, els 16 investigadors i investigadores publiquen avui una carta en la revista Science en la qual reclamen la necessitat de “repensar” l'avaluació de les eines de IA per a avançar cap a uns models més transparents i saber quina és la seua eficàcia real, què és el que poden i no poden fer.
En el seu escrit, els autors proposen un full de ruta per als models de IA, en la qual els seus resultats es presenten de forma més matisada i els resultats de l'avaluació case per cas es posen a la disposició del públic.
Segons explica Hernández-Orallo, el rendiment d'un model de IA es mesura amb estadístiques agregades. I això suposa un risc, perquè si bé poden donar una visió del seu bon rendiment global, poden ocultar també una baixa fiabilitat/utilitat en casos concrets, més minoritaris, “i no obstant això es dona a entendre que és igualment vàlid en tots els casos quan en realitat no és així”.
En el document, els i les signants l'expliquen amb el cas de models de IA d'ajuda al diagnòstic clínic i assenyalen que aquests sistemes podrien tenir un problema quan analitzen a persones d'una ètnia o grup demogràfic concret, perquè són casos que van constituir només una xicoteta proporció del seu entrenament.
“El que demanem és que cada vegada que es publique un resultat en IA, es desglosse el màxim possible, perquè si no es fa, no és possible saber la seua utilitat real i reproduir l'anàlisi. En l'article publicat en Science parlem també d'un sistema de IA de reconeixement facial que donava un 90% d'encert i després es va comprovar que per a homes blancs el percentatge d'encert era del 99.2%, però per a dones negres només arribava al 65,5%. Per això, en algunes ocasions, els resultats que es venen sobre la utilitat d'una eina de IA no són del tot transparents i fiables. Si no et donen el detall, creus que els models funcionen molt bé i no és la realitat. No tenir aqueix desglossament amb tota la informació possible sobre el model de IA suposa que aplicar-lo podria comportar riscos”, apunta José Hernández-Orallo.
L'investigador de VRAIN UPV destaca que els canvis que proposen poden contribuir a millorar la comprensió en la IA. I també a reduir la “voraç” competició que existeix actualment entre els laboratoris de IA per anunciar que el seu model millora una miqueta per cent altres sistemes anteriors.
“Hi ha laboratoris que volen passar del 93% al 95% com siga i això va en contra de l'aplicabilitat i fiabilitat final de la IA. El que volem, en definitiva, és contribuir al fet que, entre tots, entenguem millor com funciona la IA, quines són les limitacions de cada model, per a garantir un bon ús d'aquesta tecnologia”, conclou Hernández-Orallo.
Al costat dels investigadors de l'Institut VRAIN de la Politècnica de València, en aquest article ha participat també personal investigador de la Universitat de Cambridge, la Universitat d'Harvard, l'Institut Tecnològic de Massachusetts (MIT), la Universitat de Stanford, Google, l'Imperial College de Londres, la Universitat de Leeds, l'Institut Alan Turing de Londres, Deepmind, l'Institut Nacional d'Estàndards i Tecnologia dels EUA (NIST), l'Institut Santa Fe, la Universitat Tongji de Shanghái i la Universitat Shandong de Jinan.
Referència
Ryan Burnell et al.Rethink reporting of evaluation results in AI.Science380, 136-138(2023).DOI:10.1126/science.adf6369
Notícies destacades