Un equip investigador de la Universitat Politècnica de València (UPV) i el Centre d'Arqueologia Subaquàtica de l'Institut Andalús del Patrimoni Històric (IAPH) presenten aquesta vesprada a Sevilla (16.30 h, seu de l'IAPH) els resultats del projecte Caravel·la, desenvolupat durant els últims dos anys i que ha permès, a través de tècniques d'intel·ligència artificial i aprenentatge automàtic, accedir als continguts de més de 130.000 imatges de l'Arxiu General d'Índies i l'Arxiu Històric Provincial de Cadis.
"Amb aquestes tècniques", explica Enrique Vidal, investigador del centre Pattern Recognition and Human Language Technologies (PHRLT-UPV), "podem rastrejar qualsevol document gràfic amb la mateixa rapidesa que un cercador web, identificant paraules concretes, combinacions de paraules, frases, etc. Tot això, gràcies a models estadístics que hem entrenat a partir d'exemples i que ara són els grans aliats per a l'estudi d'aquests fons de la història d'Espanya. I els mateixos mètodes poden aplicar-se també a molts altres documents històrics".
El projecte ha rebut el suport del Programa d'ajudes a equips d'investigació científica de la Fundació BBVA, en l'àrea d'Humanitats Digitals.
Arxiu General d'Índies
Els fons de l'Arxiu General d'Índies són d'un interès excepcional per a l'estudi de la història d'Espanya a Amèrica -des del sud dels Estats Units fins a la Terra de Foc- i Filipines dels segles XV al XIX.
Es tracta de manuscrits relacionats amb viatges i comerç naval espanyol, l'anàlisi dels quals no es pot fer amb les tècniques tradicionals de transcripció OCR (que estan pensades per a text imprès), ni tampoc amb tècniques específiques per a materials manuscrits, ja que els resultats que ofereixen quan s'apliquen a aquests textos històrics són massa imprecisos.
"Caravel·la ha permès anar més enllà", apunta Joan Andreu Sánchez, investigador també del PHRLT de la UPV, "amb tècniques d'aprenentatge automàtic que permeten indexar imatges de text manuscrit en grans col·leccions de documents històrics l'estat de conservació i els enrevessats estils d'escriptura dels quals fan quasi impossible la lectura dels seus documents per humans". Aquestes tècniques són capaces d'identificar i destriar els diferents tipus de lletres utilitzats en cadascuna de les èpoques en què estan datats els documents i, fins i tot, analitzar imatges d'una qualitat molt baixa.
La clau per a això es troba en la capacitat dels seus algorismes per a obtenir models que "aprenen" automàticament a partir d'exemples. "Aquests models", afig Vidal, "necessiten una quantitat de dades d'aprenentatge relativament xicoteta per a obtenir resultats molt satisfactoris. Aquests mètodes permeten respondre satisfactòriament a desafiaments que els mateixos documents plantegen, com les diferències de grafies, els esborralls o la qualitat de la imatge".
En aquest cas, l'aprenentatge es va fer amb prop de 500 pàgines de l'Arxiu d'Índies, que van ser seleccionades i transcrites per Carlos Alonso i el seu equip d'especialistes del Centre d'Arqueologia Subaquàtica de l'IAPH.
Referències espanyoles a la terra austral... prèvies al naixement de James Cook
Caravel·la, que en paraules d'Andreu "contribueix a evitar l'espoli del patrimoni submergit", ha tret a la llum informació sobre derelictes que constitueixen un tresor arqueològic de primera magnitud, a causa de la gran riquesa històrica i cultural del seu contingut.
Una de les troballes més sorprenents localitzades en aquests fons es va produir, sens dubte, quan, cercant termes relacionats amb Austràlia (com ara "terra austral incògnita"), el personal investigador va trobar una carta del principi del segle XVIII dirigida al rei Felip V.
"En aquesta missiva, escrita pel jesuïta Andrés Serrano", explica Vidal, "hem descobert referències molt precises al continent austral datades del 1705, molt abans que el capità James Cook arribara fins a les seues costes. Es tracta de dades poc conegudes sobre la història d'Austràlia i que ara descobrim aplicant les tècniques d'indexació i cerca probabilística desenvolupades al nostre centre", indica.
READ, el Segle d'Or i Transkribus
En aquesta mateixa línia de treball, l'equip del PRHLT de la UPV ha participat en el projecte europeu READ, que ha estudiat i analitzat documents del Segle d'Or de la literatura espanyola (entre aquests, manuscrits de Lope de Vega pertanyents a la col·lecció de la Biblioteca Nacional); la correspondència dels Germans Grimm pertanyent a l'Arxiu Estatal de Marburg (Alemanya), o documentació de l'Arxiu Nacional de Finlàndia, del qual s'han indexat prop de 150.000 pàgines del milió que es pretenen arribar a indexar en futurs projectes.
A més, en el marc del projecte, s'ha desenvolupat Transkribus, una plataforma de programari que treballa amb imatges de documents antics de gran valor historiogràfic. Transkribus s'utilitza, fonamentalment, com a eina de generació de dades d'entrenament, ja que les tècniques de reconeixement de text manuscrit necessiten dades amb les quals aprendre de manera automàtica. En un futur pròxim, l'eina incorporarà altres funcionalitats, com l'entrenament automàtic de models per a altres llengües.
READ ha conclòs també amb la creació d'una cooperativa europea, de la qual la UPV és sòcia fundadora, que posa a la disposició de totes les persones usuàries registrades el programari Transkribus. Actualment, aquesta plataforma té més de 30.000 usuaris i usuàries de tot el món, la qual cosa la converteix en una eina de referència internacional per a tot el personal historiador.
Notícies destacades