- -
UPV
 

Reconocimiento de textos

La UPV, a través del PHRLT, participa en READ, un proyecto europeo para la transcripción e indexación automática de manuscritos antiguos

[ 05/04/2016 ]
Reconocimiento de textos

La Universitat Politècnica de València, a través de su centro Pattern Recognition and Human Language Technologies (PHRLT), es uno de los socios de READ, un proyecto europeo que tiene como objetivo el desarrollo de avanzadas herramientas para la transcripción e indexación automática de manuscritos antiguos.


El proyecto, financiado por el programa Horizon2020 de la Unión Europea (UE), se extenderá hasta junio de 2019 y permitirá acceder a documentos que datan desde el siglo XIV hasta la actualidad.


Manuscritos de Lope de Vega, correspondencia de los hermanos Grimm y documentos de la historia de Venecia, entre los más relevantes


Entre ellos, destacan manuscritos de Lope de Vega, pertenecientes a la colección de la Biblioteca Nacional; correspondencia de los Hermanos Grimm, del Archivo Estatal de Marburgo; y una gran cantidad de documentos de la historia de Venecia recopilados desde hace cientos de años.


"Estos son posiblemente los más llamativos", señala Joan Andreu Sánchez, investigador del centro PRHLT-UPV, "pero también nos proponemos poner al alcance de investigadores, historiadores, lingüistas, genealogistas y público en general una gran cantidad de documentos civiles, como registros matrimoniales, partidas de nacimiento o defunción, sentencias judiciales y demás que, en conjunto, tienen un gran valor para estudios demográficos, genealógicos, etc.".


Transcribirá textos escritos en latín, alemán, holandés, castellano, italiano y finlandés, entre otros


El proyecto, que trabaja con documentos procedentes de países como España, Italia, Alemania, Reino Unido, Países Bajos o Finlandia, facilitará la transcripción de originales escritos en latín, alemán, holandés, inglés, castellano, italiano y finlandés, entre otros


"La idea es que, en el futuro, las bibliotecas y los archivos sean capaces de facilitar el acceso a los contenidos para que la gente pueda buscar dentro de los documentos, y no con los metadatos únicamente, tal como se hace actualmente", añade Andreu.


Reconocimiento a través de técnicas holísticas


Según se indica desde el PHRLT-UPV, uno de los problemas de los documentos antiguos es la ausencia de unos patrones de escritura y edición estándar. La variabilidad es, por lo tanto, enorme, y los caracteres no pueden ser aislados de manera automática, lo que imposibilita su transcripción a través de técnicas de OCR. Por ello, el reconocimiento debe basarse en técnicas holísticas, aquellas que reconocen caracteres, palabras y frases como "un todo".


Andreu explica que "hay documentos con anotaciones en los márgenes, palabras interlinia añadidas, tachones, textos con muchísimas abreviaturas, gran variabilidad en el tipo de escritura, etcétera. El proyecto plantea procesar esta heterogeneidad y hacer accesible toda la información, bien transcribiéndola, o bien indexándola haciendo uso de nuevas herramientas".


Un paso más allá del proyecto Transcriptorium


Para ello, los socios de READ trabajan nuevas soluciones de reconocimiento de textos manuscritos (HTR, siglas en inglés de Handwritten Text Recognition), que se incorporarán a Transkribus, software libre desarrollado en el marco de otro proyecto europeo denominado Transcriptorium.


"READ coge el testigo de este proyecto y va un paso más allá", afirma el investigador del PHRLT-UPV. "En Transcriptorium nos encargamos de madurar la tecnología HTR y darla a conocer a los proveedores de contenidos: archivos y bibliotecas. En READ, el propósito es extender el uso de la tecnología HTR a gran escala y dar servicio a los principales proveedores de contenidos". El trabajo de la UPV en READ se centra en el módulo de reconocimiento e indexación de Transkribus.


El contexto, clave para restringir el proceso de búsqueda de la transcripción


La clave de las herramientas en las que trabajan los investigadores de READ reside en su capacidad para obtener modelos que aprenden automáticamente a partir de ejemplos. Dichos modelos necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios.


"Una vez aprendidos los modelos, se utilizan técnicas muy eficientes de transcripción que emplean redes de estados finitos. Un aspecto importante de todo el proceso es el uso de modelos de lenguaje que utilizan el contexto para restringir el proceso de búsqueda de la transcripción", explica Andreu.


Además, las herramientas permiten editar y corregir posibles errores de transcripción automática mediante técnicas interactivas.


Futuro servicio a la carta


En un futuro, los usuarios podrán subir una colección de imágenes y solicitar que el sistema proporcione una transcripción. "Este servicio, que estará disponible a través Transkribus, será gratuito para los usuarios en una carta de servicios estándar. Por otro lado, para problemas más complejos, se podrán buscar soluciones ad-hoc", concluye el investigador del PHRLT-UPV.


Más información
    Noticia UPV-TV

Noticias destacadas


Acabar con la pobreza infantil en España aumentaría el PIB un 5'7% Acabar con la pobreza infantil en España aumentaría el PIB un 5'7%
La pobreza infantil en España, a debate en unas jornadas organizadas por la Cátedra de Infancia y Adolescencia de la UPV, en Torrevieja
QS rankings por materias QS rankings por materias
La UPV, reconocida como mejor universidad de España para estudiar tanto Ingeniería Agroalimentaria y Forestal como Arte y Diseño
La 'Escuela de Diseño' cambia de nombre La 'Escuela de Diseño' cambia de nombre
La ETSIADI (Escuela Técnica Superior de Ingeniería Aeroespacial y Diseño Industrial) sustituye la denominación de ETSID
La UPV, en la semifinal de Solo de Ciencia La UPV, en la semifinal de Solo de Ciencia
Entre los diez semifinalistas, se encuentran Miguel López, investigador del CVBLab-Human Tech y Carolina Ropero, doctoranda en la UPV
Primeros pasos del museo Ciència fallera de la UPV Primeros pasos del museo Ciència fallera de la UPV
La UPV celebra el acto de entrega de premios del I concurso "La Ciència a les Falles". Los ninots ganadores, los primeros de este nuevo museo de la universidad
UPV-CLÍNIC UPV-CLÍNIC
La UPV e INCLIVA firman un convenio para impulsar conjuntamente la innovación en el ámbito de la salud



EMAS upv