Nou full de ruta

Experts i expertes mundials reclamen major transparència en l'avaluació dels sistemes d'Intel·ligència Artificial

[ 26/04/2023 ]

“Els recents avanços en Intel·ligència Artificial basada en sistemes que requereixen enormes quantitats de dades i càlcul, com GPT-4, han posat de manifest les dificultats per a comprendre les capacitats i febleses d'aquests sistemes d'Intel·ligència Artificial. No sabem on és segur utilitzar aquests sistemes ni com podrien millorar-se. I això es deu a la forma en què s'avalua avui la IA, que requereix d'un canvi urgent”.

Darrere d'aquestes paraules es troben 16 dels principals experts i expertes en Intel·ligència Artificial de tot el món, entre ells els investigadors de l'Institut VRAIN de la Universitat Politècnica de València (UPV), José Hernández-Orallo, Fernando Martínez Plumed i Wout Schellaert.

Coordinats pel professor Hernández-Orallo, els 16 investigadors i investigadores publiquen avui una carta en la revista Science en la qual reclamen la necessitat de “repensar” l'avaluació de les eines de IA per a avançar cap a uns models més transparents i saber quina és la seua eficàcia real, què és el que poden i no poden fer.

En el seu escrit, els autors proposen un full de ruta per als models de IA, en la qual els seus resultats es presenten de forma més matisada i els resultats de l'avaluació case per cas es posen a la disposició del públic.

Segons explica Hernández-Orallo, el rendiment d'un model de IA es mesura amb estadístiques agregades. I això suposa un risc, perquè si bé poden donar una visió del seu bon rendiment global, poden ocultar també una baixa fiabilitat/utilitat en casos concrets, més minoritaris, “i no obstant això es dona a entendre que és igualment vàlid en tots els casos quan en realitat no és així”.

En el document, els i les signants l'expliquen amb el cas de models de IA d'ajuda al diagnòstic clínic i assenyalen que aquests sistemes podrien tenir un problema quan analitzen a persones d'una ètnia o grup demogràfic concret, perquè són casos que van constituir només una xicoteta proporció del seu entrenament.

“El que demanem és que cada vegada que es publique un resultat en IA, es desglosse el màxim possible, perquè si no es fa, no és possible saber la seua utilitat real i reproduir l'anàlisi. En l'article publicat en Science parlem també d'un sistema de IA de reconeixement facial que donava un 90% d'encert i després es va comprovar que per a homes blancs el percentatge d'encert era del 99.2%, però per a dones negres només arribava al 65,5%. Per això, en algunes ocasions, els resultats que es venen sobre la utilitat d'una eina de IA no són del tot transparents i fiables. Si no et donen el detall, creus que els models funcionen molt bé i no és la realitat. No tenir aqueix desglossament amb tota la informació possible sobre el model de IA suposa que aplicar-lo podria comportar riscos”, apunta José Hernández-Orallo.

L'investigador de VRAIN UPV destaca que els canvis que proposen poden contribuir a millorar la comprensió en la IA. I també a reduir la “voraç” competició que existeix actualment entre els laboratoris de IA per anunciar que el seu model millora una miqueta per cent altres sistemes anteriors.

“Hi ha laboratoris que volen passar del 93% al 95% com siga i això va en contra de l'aplicabilitat i fiabilitat final de la IA. El que volem, en definitiva, és contribuir al fet que, entre tots, entenguem millor com funciona la IA, quines són les limitacions de cada model, per a garantir un bon ús d'aquesta tecnologia”, conclou Hernández-Orallo.

Al costat dels investigadors de l'Institut VRAIN de la Politècnica de València, en aquest article ha participat també personal investigador de la Universitat de Cambridge, la Universitat d'Harvard, l'Institut Tecnològic de Massachusetts (MIT), la Universitat de Stanford, Google, l'Imperial College de Londres, la Universitat de Leeds, l'Institut Alan Turing de Londres, Deepmind, l'Institut Nacional d'Estàndards i Tecnologia dels EUA (NIST), l'Institut Santa Fe, la Universitat Tongji de Shanghái i la Universitat Shandong de Jinan.

Referència

Ryan Burnell et al.Rethink reporting of evaluation results in AI.Science380, 136-138(2023).DOI:10.1126/science.adf6369

Notícies destacades

Fins a 900€ per estudiant
La UPV posa en marxa la seua convocatòria d'ajudes d'acció social per al present curs acadèmic

Lluita contra el ciberassetjament sexual a menors
La UPV ha organitzat el congrés internacional Enfocaments Interdisciplinaris per a la Protecció de la Infància en Internet, del projecte d'investigació Stoponsexgroom

Edicions Maior: 25 anys
La UPV exhibeix una selecció excepcional de la històrica galeria balear, referència internacional de la gràfica contemporània

QS rànquings per matèries
La UPV, reconeguda com a millor universitat d'Espanya per a estudiar tant Enginyeria Agroalimentària i Forestal com Art i Disseny

Activa el teu futur
El CFP organitza tallers, ponències i activitats per a donar a conèixer els títols propis de la UPV

Èxit de la nova edició del Fòrum d'Ocupació del campus de Gandia
Més de 300 joves han assistit a la fira de l'ocupació, que ha reunit 44 entitats amb un centenar d'ofertes