- -
UPV
 

Reconeixement de textos

La UPV, a través del PHRLT, participa en READ, un projecte europeu per a la transcripció i indexació automàtica de manuscrits antics

[ 05/04/2016 ]
Reconeixement de textos

La Universitat Politècnica de València, a través del seu centre Pattern Recognition and Human Language Technologies (PHRLT), és un dels socis de READ, un projecte europeu que té com a objectiu el desenvolupament d'eines avançades per a la transcripció i indexació automàtica de manuscrits antics.


El projecte, finançat pel programa Horizon2020 de la Unió Europea (UE), s'estendrà fins a juny del 2019 i permetrà accedir a documents que daten des del segle XIV fins a l'actualitat.


Manuscrits de Lope de Vega, correspondència dels germans Grimm i documents de la història de Venècia, entre els més rellevants


Entre aquests, destaquen manuscrits de Lope de Vega, pertanyents a la col·lecció de la Biblioteca Nacional; correspondència dels Germans Grimm, de l'Arxiu Estatal de Marburg, i una gran quantitat de documents de la història de Venècia recopilats des de fa centenars d'anys.


"Aquests són possiblement els més cridaners", assenyala Joan Andreu Sánchez, investigador del centre PRHLT-UPV, "però també ens proposem posar a l'abast d'investigadors, historiadors, lingüistes, genealogistes i públic en general una gran quantitat de documents civils, com ara registres matrimonials, partides de naixement o defunció, sentències judicials i altres que, en conjunt, tenen un gran valor per a estudis demogràfics, genealògics, etc.".


Transcriurà textos escrits en llatí, alemany, holandès, castellà, italià i finlandès, entre altres


El projecte, que treballa amb documents procedents de països com Espanya, Itàlia, Alemanya, el Regne Unit, els Països Baixos o Finlàndia, facilitarà la transcripció d'originals escrits en llatí, alemany, holandès, anglès, castellà, italià i finlandès, entre altres.


"La idea és que, en el futur, les biblioteques i els arxius siguen capaços de facilitar l'accés als continguts perquè la gent puga cercar dins dels documents, i no amb les metadades únicament, tal com es fa actualment", afig Andreu.


Reconeixement a través de tècniques holístiques


Segons s'indica des del PHRLT de la UPV, un dels problemes dels documents antics és l'absència d'uns patrons d'escriptura i edició estàndard. La variabilitat és, per tant, enorme, i els caràcters no poden ser aïllats de manera automàtica, la qual cosa impossibilita la seua transcripció a través de tècniques d'OCR. Per això, el reconeixement ha de basar-se en tècniques holístiques, aquelles que reconeixen caràcters, paraules i frases com "un tot".


Andreu explica que "hi ha documents amb anotacions als marges, paraules interlineals afegides, esborraments, textos amb moltíssimes abreviatures, gran variabilitat en el tipus d'escriptura, etcètera. El projecte planteja processar aquesta heterogeneïtat i fer accessible tota la informació, bé transcrivint-la o bé indexant-la fent ús de noves eines".


Un pas més enllà del projecte Transcriptorium


Amb aquesta finalitat, els socis de READ treballen en noves solucions de reconeixement de textos manuscrits (HTR, sigles en anglès d'handwritten text recognition), que s'incorporaran a Transkribus, programari lliure desenvolupat en el marc d'un altre projecte europeu denominat Transcriptorium.


"READ agafa el testimoni d'aquest projecte i va un pas més enllà", afirma l'investigador del PHRLT de la UPV. "En Transcriptorium ens encarreguem de madurar la tecnologia HTR i donar-la a conèixer als proveïdors de continguts: arxius i biblioteques. En READ, el propòsit és estendre l'ús de la tecnologia HTR a gran escala i donar servei als principals proveïdors de continguts". El treball de la UPV en READ se centra en el mòdul de reconeixement i indexació de Transkribus.


El context, clau per a restringir el procés de cerca de la transcripció


La clau de les eines amb què treballen els investigadors de READ resideix en la seua capacitat per a obtenir models que aprenen automàticament a partir d'exemples. Aquests models necessiten una quantitat de dades d'aprenentatge relativament petita per a obtenir resultats molt satisfactoris.


"Una vegada apresos els models, s'utilitzen tècniques molt eficients de transcripció que empren xarxes d'estats finits. Un aspecte important de tot el procés és l'ús de models de llenguatge que utilitzen el context per a restringir el procés de cerca de la transcripció", explica Andreu.


A més, les eines permeten editar i corregir possibles errors de transcripció automàtica mitjançant tècniques interactives.


Futur servei a la carta


En un futur, els usuaris podran pujar una col·lecció d'imatges i sol·licitar que el sistema proporcione una transcripció. "Aquest servei, que estarà disponible a través Transkribus, serà gratuït per als usuaris en una carta de serveis estàndard. D'altra banda, per a problemes més complexos, es podran cercar solucions ad-hoc", conclou l'investigador del PHRLT de la UPV.


Més informació
    Notícia UPV-TV

Notícies destacades


Fellowship Award Fellowship Award
El professor de la UPV Luis Manuel Sánchez rep un premi de la Societat Europea per a la Formació en Enginyeria SEFI
Casa dels Caramels Casa dels Caramels
La Universitat Politècnica de València adquireix l'edifici per a la seua extensió universitària en el centre històric de València
Naix l'Observatori d'IA i Diversitat Naix l'Observatori d'IA i Diversitat
Ineco i la UPV promouen el desenvolupament i ús responsable de la intel·ligència artificial per a fomentar un enfocament humà i ètic en la seua implementació
Detenció precoç del melanoma Detenció precoç del melanoma
L'I3M obté les primeres imatges en 3D d'un melanoma en ratolins amb un microscopi fotoacústic de baix cost
ARWU 2024 ARWU 2024
El rànquing de Xangai reconeix un any més la UPV com a millor politècnica d'Espanya
ERC Advanced Grant ERC Advanced Grant
El Consell Europeu d'Investigació finança un projecte de l'ITQ, liderat per Hermenegildo García, per avançar en la descarbonització



EMAS upv