- -
UPV
 

Reconeixement de textos

La UPV, a través del PHRLT, participa en READ, un projecte europeu per a la transcripció i indexació automàtica de manuscrits antics

[ 05/04/2016 ]
Reconeixement de textos

La Universitat Politècnica de València, a través del seu centre Pattern Recognition and Human Language Technologies (PHRLT), és un dels socis de READ, un projecte europeu que té com a objectiu el desenvolupament d'eines avançades per a la transcripció i indexació automàtica de manuscrits antics.


El projecte, finançat pel programa Horizon2020 de la Unió Europea (UE), s'estendrà fins a juny del 2019 i permetrà accedir a documents que daten des del segle XIV fins a l'actualitat.


Manuscrits de Lope de Vega, correspondència dels germans Grimm i documents de la història de Venècia, entre els més rellevants


Entre aquests, destaquen manuscrits de Lope de Vega, pertanyents a la col·lecció de la Biblioteca Nacional; correspondència dels Germans Grimm, de l'Arxiu Estatal de Marburg, i una gran quantitat de documents de la història de Venècia recopilats des de fa centenars d'anys.


"Aquests són possiblement els més cridaners", assenyala Joan Andreu Sánchez, investigador del centre PRHLT-UPV, "però també ens proposem posar a l'abast d'investigadors, historiadors, lingüistes, genealogistes i públic en general una gran quantitat de documents civils, com ara registres matrimonials, partides de naixement o defunció, sentències judicials i altres que, en conjunt, tenen un gran valor per a estudis demogràfics, genealògics, etc.".


Transcriurà textos escrits en llatí, alemany, holandès, castellà, italià i finlandès, entre altres


El projecte, que treballa amb documents procedents de països com Espanya, Itàlia, Alemanya, el Regne Unit, els Països Baixos o Finlàndia, facilitarà la transcripció d'originals escrits en llatí, alemany, holandès, anglès, castellà, italià i finlandès, entre altres.


"La idea és que, en el futur, les biblioteques i els arxius siguen capaços de facilitar l'accés als continguts perquè la gent puga cercar dins dels documents, i no amb les metadades únicament, tal com es fa actualment", afig Andreu.


Reconeixement a través de tècniques holístiques


Segons s'indica des del PHRLT de la UPV, un dels problemes dels documents antics és l'absència d'uns patrons d'escriptura i edició estàndard. La variabilitat és, per tant, enorme, i els caràcters no poden ser aïllats de manera automàtica, la qual cosa impossibilita la seua transcripció a través de tècniques d'OCR. Per això, el reconeixement ha de basar-se en tècniques holístiques, aquelles que reconeixen caràcters, paraules i frases com "un tot".


Andreu explica que "hi ha documents amb anotacions als marges, paraules interlineals afegides, esborraments, textos amb moltíssimes abreviatures, gran variabilitat en el tipus d'escriptura, etcètera. El projecte planteja processar aquesta heterogeneïtat i fer accessible tota la informació, bé transcrivint-la o bé indexant-la fent ús de noves eines".


Un pas més enllà del projecte Transcriptorium


Amb aquesta finalitat, els socis de READ treballen en noves solucions de reconeixement de textos manuscrits (HTR, sigles en anglès d'handwritten text recognition), que s'incorporaran a Transkribus, programari lliure desenvolupat en el marc d'un altre projecte europeu denominat Transcriptorium.


"READ agafa el testimoni d'aquest projecte i va un pas més enllà", afirma l'investigador del PHRLT de la UPV. "En Transcriptorium ens encarreguem de madurar la tecnologia HTR i donar-la a conèixer als proveïdors de continguts: arxius i biblioteques. En READ, el propòsit és estendre l'ús de la tecnologia HTR a gran escala i donar servei als principals proveïdors de continguts". El treball de la UPV en READ se centra en el mòdul de reconeixement i indexació de Transkribus.


El context, clau per a restringir el procés de cerca de la transcripció


La clau de les eines amb què treballen els investigadors de READ resideix en la seua capacitat per a obtenir models que aprenen automàticament a partir d'exemples. Aquests models necessiten una quantitat de dades d'aprenentatge relativament petita per a obtenir resultats molt satisfactoris.


"Una vegada apresos els models, s'utilitzen tècniques molt eficients de transcripció que empren xarxes d'estats finits. Un aspecte important de tot el procés és l'ús de models de llenguatge que utilitzen el context per a restringir el procés de cerca de la transcripció", explica Andreu.


A més, les eines permeten editar i corregir possibles errors de transcripció automàtica mitjançant tècniques interactives.


Futur servei a la carta


En un futur, els usuaris podran pujar una col·lecció d'imatges i sol·licitar que el sistema proporcione una transcripció. "Aquest servei, que estarà disponible a través Transkribus, serà gratuït per als usuaris en una carta de serveis estàndard. D'altra banda, per a problemes més complexos, es podran cercar solucions ad-hoc", conclou l'investigador del PHRLT de la UPV.


Més informació
    Notícia UPV-TV

Notícies destacades


Fins a 900€ per estudiant Fins a 900€ per estudiant
La UPV posa en marxa la seua convocatòria d'ajudes d'acció social per al present curs acadèmic
Lluita contra el ciberassetjament sexual a menors Lluita contra el ciberassetjament sexual a menors
La UPV ha organitzat el congrés internacional Enfocaments Interdisciplinaris per a la Protecció de la Infància en Internet, del projecte d'investigació Stoponsexgroom
Edicions Maior: 25 anys Edicions Maior: 25 anys
La UPV exhibeix una selecció excepcional de la històrica galeria balear, referència internacional de la gràfica contemporània
QS rànquings per matèries QS rànquings per matèries
La UPV, reconeguda com a millor universitat d'Espanya per a estudiar tant Enginyeria Agroalimentària i Forestal com Art i Disseny
Activa el teu futur Activa el teu futur
El CFP organitza tallers, ponències i activitats per a donar a conèixer els títols propis de la UPV
Èxit de la nova edició del Fòrum d'Ocupació del campus de Gandia Èxit de la nova edició del Fòrum d'Ocupació del campus de Gandia
Més de 300 joves han assistit a la fira de l'ocupació, que ha reunit 44 entitats amb un centenar d'ofertes



EMAS upv