ADeLe prediu l'èxit de la IA

La UPV participa en el desenvolupament d'una metodologia que prediu amb prop d'un 90 % d'encert si un model d'IA resoldrà o no una tasca que encara no ha executat

[ 02/04/2026 ]

Un equip de la Universitat Politècnica de València, pertanyent a l’Institut Universitari Valencià d’Investigació en Intel·ligència Artificial (VRAIN) i a ValgrAI, ha participat en el desenvolupament d’ADeLe, una nova metodologia que ofereix explicacions i prediccions precises sobre si els grans models de llenguatge de la intel·ligència artificial (LLM) tindran èxit o no en noves tasques específiques que encara no han executat. A més, aquesta metodologia identifica exactament fins on arriba el nivell de capacitat de raonament de qualsevol model donat.

Les conclusions d’aquest estudi, que es publiquen avui en la revista Nature, suposen un gran avanç, ja que les metodologies actuals només indiquen com es comporta un model d’IA en una prova específica. ADeLe, amb una avaluació més cognitiva, explica i prediu el comportament dels models a priori, la qual cosa permet anticipar errors abans que les indústries llancen nous models d’IA. Així es pot anticipar on fallen abans de descobrir-ho sobre la marxa.

Amb aquesta avaluació, més cognitiva, “per primera vegada, podem anticipar amb prop d’un 90 % d’encert si un model d’IA resoldrà o no una tasca nova, abans de desplegar-lo. Per a la indústria, això significa detectar fallades a temps i evitar els alts costos de llançar un sistema que no rendeix com s’esperava”, explica l’investigador de VRAIN de la UPV, Fernando Martínez-Plumed.

Avanç en l’avaluació rigorosa de les capacitats de la IA

Atès el ritme i la penetració que la IA té en l’actualitat, aquest és un avanç de gran rellevància per a investigadors, empreses, avaluadors externs, responsables polítics i reguladors que exigien una avaluació rigorosa, escalable i estandarditzada de les capacitats de la IA, fins i tot a l’hora de fer auditories de seguretat.

Tal com s’indica en l’article “fins avui, l’avaluació de la IA no satisfà les exigències d’un ecosistema d’IA en ràpida evolució i cada vegada més divers. Comprendre i anticipar el rendiment s’ha convertit en un requisit urgent per a una àmplia gamma de sistemes d’IA de propòsit general”. Aquesta nova metodologia és exhaustiva i escalable, de manera que aborda els inconvenients de l’avaluació convencional de la IA, incloent-hi la falta de capacitat explicativa i predictiva.

18 dimensions cognitives

L’estudi l’han elaborat conjuntament el catedràtic d’informàtica i investigador de VRAIN de la UPV i membre de la UMI de ValgrAI José Hernández-Orallo, el professor titular d’Informàtica i investigador de VRAIN de la UPV Fernando Martínez-Plumed, els doctorands Yael Moros-Daval i Kexin Jiang-Chen, investigadora de VRAIN de la UPV, i Behzad Mehrbakhsh, doctorant de ValgrAI i de VRAIN de la UPV

La clau de la nova recerca va més enllà del mesurament de la precisió agregada, atès que el fet d’extraure un conjunt de dimensions de capacitat àmplies permet fer prediccions transferibles a tasques desconegudes.

El nou sistema organitza l’ampli ventall de tasques cognitives a les quals s’enfronten els grans models de llenguatge de la IA en tan sols 18 dimensions clau, entre les quals s’inclouen l’atenció, el raonament i el grau de singularitat de la tasca. Després puntua qualsevol tasca del món real en cadascuna d’aquestes dimensions, en funció de quant exigeix d’aquesta capacitat específica. Fent que un model porte a terme un nombre suficient d’aquestes tasques puntuades, segons el nivell d’exigència corresponent, s’obté el perfil de capacitats.

Conclusions clau

Mitjançant l’ús d’ADeLe, l’equip d’investigació va avaluar nombroses proves de rendiment d’IA i va extraure quatre conclusions clau: en primer lloc, que les proves de rendiment actuals d’IA no mesuren el que pretenen mesurar, ja que sovint avaluen altres capacitats per a les quals no van ser dissenyades. En segon lloc, que els models d’IA mostren patrons distints de fortaleses i debilitats en diferents capacitats, segons la grandària, la metodologia de raonament i la família de models. En tercer lloc, que el nou sistema ADeLe ofereix explicacions i prediccions precises sobre si els sistemes d’IA tindran èxit o bé fracassaran en una nova tasca específica. I finalment, l’equip destaca que les investigacions contradictòries sobre si els models d’IA són capaços de raonar tenen raó en part, però es refereixen a nivells de dificultat diferents. Algunes proves de rendiment d’IA actuals només demanen una resolució bàsica de problemes, mentre que d’altres requereixen lògica avançada, abstracció i un coneixement profund del camp en qüestió.

Els autors afirmen en un resum de les troballes que “la imatge més clara que ofereix ADeLe és la següent: els models de raonament (com OpenAI¿s o1 d’OpenAI) mostren millores reals i quantificables respecte als models estàndard, no sols en lògica i matemàtiques, sinó també en àrees sorprenents, com per exemple comprendre què pregunta realment un usuari”.

L’estudi, titulat “General Scales Unlock AI Evaluation with Explanatory and Predictive Power”, l’han elaborat conjuntament investigadors de la Universitat de Cambridge, la Universitat Politècnica de València, Princeton, Carnegie Mellon i William & Mary, juntament amb professionals de Microsoft Research i el Centre d’Automàtica i Robòtica (CAR, CSIC-UPM), entre altres institucions.

Notícies destacades


La lluita dels ningú La lluita dels ningú
El Centre de Cooperació al Desenvolupament UPV celebra els seus 25 anys amb una exposició que arreplega imatges de la seua lluita contra la pobresa i la injustícia
Primer laboratori del món en neuroemprenedoria: NeuroEntrepreneurship Lab UPV Primer laboratori del món en neuroemprenedoria: NeuroEntrepreneurship Lab UPV
El NeuroEnterpreneurship Lab de la UPV és pioner a aplicar la neurociència al rendiment cerebral d'emprenedors i directius d'empreses
Camí dels seus vuitens JJOO Camí dels seus vuitens JJOO
Ricardo Ten, llegenda de l'esport espanyol, és la bandera del nou UPV Paracycling Team
Projecte internacional ASPIRE Projecte internacional ASPIRE
L'ITQ (UPV-CSIC) participa en aquest projecte que busca desenvolupar nous dispositius i circuits neuromòrfics inspirats en el funcionament del cervell
La veu dels estudiants La veu dels estudiants
El rector de la UPV dona la benvinguda als nous màxims representants de les delegacions
Convidada d'honor Convidada d'honor
La Universitat Politècnica de València participa, per primera vegada, en la Fira Internacional del Llibre de la Universitat de Guanajuato (Mèxic)


Contacta amb nosaltres

Envia'ns un suggeriment, una queixa o una felicitació. Consulta'ns directament els teus dubtes. Evita desplaçaments i esperes