Els recents avanços en intel·ligència artificial (IA) han generalitzat l'ús de grans models de llenguatge en la nostra societat, en àmbits com l'educació, la ciència, la medicina, l'art o les finances, entre molts altres. Aquests models estan cada vegada més presents en el nostre dia a dia. No obstant això, no són tan fiables com els usuaris esperen. Així ho conclou un estudi liderat per un equip de l'Institut VRAIN de la Universitat Politècnica de València (UPV) i l'Escola Valenciana de Postgrau i Xarxa d'Investigació en Intel·ligència Artificial (ValgrAI), juntament amb la Universitat de Cambridge, que publica avui la revista Nature.
El treball revela una tendència “alarmant”: en comparació amb els primers models, i atesos uns certs aspectes, la fiabilitat ha empitjorat en els models més recents (GPT-4 en comparació amb GPT-3, per exemple).
Segons explica José Hernández Orallo, investigador de l'Institut Universitari Valencià d'Investigació en Intel·ligència Artificial (VRAIN) de la UPV i de ValgrAI, una de les principals preocupacions sobre la fiabilitat dels models de llenguatge és que el seu funcionament no s'ajusta a la percepció humana de dificultat de la tasca. En altres paraules, existeix una discordança entre les expectatives que els models fallen d'acord amb la percepció humana de dificultat en la tasca i les tasques on realment els models fallen.
“Els models poden resoldre unes certes tasques complexes d'acord amb les habilitats humanes, però al mateix temps fallen en tasques simples del mateix domini. Per exemple, poden resoldre diversos problemes matemàtics de nivell de doctorat, però es poden equivocar en una simple suma”, apunta Hernández-Orallo.
En 2022, Ilya Sutskever, el científic que està darrere d'alguns dels majors avanços en intel·ligència artificial dels últims anys (des de la solució d’Imagenet fins a AlphaGo) i cofundador d’OpenAI, va predir que “potser amb el temps aquesta discrepància disminuirà”.
No obstant això, l'estudi de l'equip de la UPV, ValgrAI i la Universitat de Cambridge demostra que no ha sigut així. Per a demostrar-ho, van investigar tres aspectes clau que afecten la fiabilitat dels models de llenguatge des d'una perspectiva humana.
L'estudi constata una discordança amb la percepció de dificultat. “Fallen els models on les persones esperem que fallen? El nostre treball conclou que els models solen ser menys precisos en tasques que els humans consideren difícils, però no són precisos al 100% ni tan sols en tasques senzilles. Això significa que no existeix una “zona segura” en la qual es puga confiar que els models funcionen a la perfecció”, apunta la investigadora de l'Institut VRAIN de la UPV, Yael Moros Daval.
De fet, l'equip de l'Institut VRAIN UPV, ValgrAI i la Universitat de Cambridge assegura que els models més recents bàsicament milloren el seu rendiment en tasques d'alta dificultat, però no en tasques de baixa dificultat, “la qual cosa agreuja la discordança de dificultat entre el rendiment dels models i les expectatives humanes”, afegeix Fernando Martínez Plumed, investigador també de VRAIN UPV.
L'estudi descobreix que els models de llenguatge recents són molt més propensos a proporcionar respostes incorrectes, en comptes d'evitar donar resposta a tasques de les quals no estan segurs. “Això pot portar al fet que els usuaris que inicialment confien massa en els models, després es deceben. D'altra banda, a diferència de les persones, la tendència a evitar proporcionar respostes no augmenta amb la dificultat. Per exemple, els humans solen evitar donar la seua opinió en problemes que superen la seua capacitat. Això relega als usuaris la responsabilitat de detectar errades durant totes les seues interaccions amb els models”, afegeix Lexin Zhou, membre de l'equip de VRAIN que ha participat també en aquest treball.
L'eficàcia de la formulació de les preguntes es veu afectada per la dificultat d'aquestes? Aquesta és una altra de les qüestions que analitza l'estudi de la UPV, ValgrAI i Cambridge, que conclou que és possible que la tendència actual de progrés en el desenvolupament de models de llenguatge i de major comprensió d'una varietat d'ordres no allibere els usuaris de preocupar-se a fer enunciats eficaços. “Hem comprovat que els usuaris poden deixar-se influir per peticions (prompts) que funcionen bé en tasques complexes però que, alhora, obtenen respostes incorrectes en tasques senzilles”, afegeix Cèsar Ferri, coautor també de l'estudi i investigador de VRAIN UPV i deValgrAI.
A més d'aquestes troballes sobre aspectes de la falta de fiabilitat dels models de llenguatge, els investigadors han descobert que la supervisió humana és incapaç de compensar aquests problemes. Per exemple, les persones poden reconèixer les tasques d'alta dificultat, però continuen considerant amb freqüència que els resultats incorrectes són correctes en aquesta àrea, fins i tot quan se'ls permet dir “no estic segur”, la qual cosa indica un excés de confiança.
Els resultats van ser similars per a múltiples famílies de models de llenguatge, inclosos la família GPT d’OpenAI, LLaMA de pesos oberts de Meta, i BLOOM, una iniciativa totalment oberta de la comunitat científica.
Els investigadors han constatat, a més, que els problemes de discordança de dificultat, falta d'abstenció adequada i sensibilitat al prompt continuen sent un problema per a les noves versions de les famílies populars, com els nous models o1 d’OpenAI i Claude-3.5-Sonnet d’Anthropic.
“En definitiva, els grans models de llenguatge són cada vegada menys fiables des del punt de vista humà, i la supervisió de l'usuari o usuària per a corregir errors no és la solució, ja que tendim a confiar massa en els models i som incapaços de reconèixer resultats incorrectes a diferents nivells de dificultat. Per això, és necessari un canvi fonamental en el disseny i desenvolupament de la IA de propòsit general, sobretot per a les aplicacions d'alt risc, en les quals la predicció de l'acompliment dels models de llenguatge com la detecció dels seus errors són primordials”, conclou Wout Schellaert, investigador de l'Institut VRAIN UPV.
Zhou, L., Schellaert, W., Martínez-Plumed, F. et al. Larger and more instructable language models become less reliable. Nature (2024). https://doi.org/10.1038/s41586-024-07930-y
Notícies destacades