- -
UPV
 

¿Fue Cook el primer europeo en documentar la tierra austral?

El proyecto Carabela (UPV-IAPH), pone la inteligencia artificial y el 'machine learning' al servicio de los historiadores

[ 24/10/2019 ]

Investigadores de la Universitat Politècnica de València (UPV) y el Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico (IAPH) presentan esta tarde en Sevilla (16.30 h, sede IAPH) los resultados del proyecto Carabela, desarrollado durante los últimos dos años y que ha permitido, a través de técnicas de inteligencia artificial y aprendizaje automático (machine learning), acceder a los contenidos de más de 130.000 imágenes del Archivo General de Indias y el Archivo Histórico Provincial de Cádiz.


"Con estas técnicas", explica Enrique Vidal, investigador del centro Pattern Recognition and Human Language Technologies (PHRLT-UPV), "podemos rastrear cualquier documento gráfico con la misma rapidez que un buscador web, identificando palabras concretas, combinaciones de palabras, frases, etc. Todo ello, gracias a modelos estadísticos que hemos entrenado a partir de ejemplos y que ahora son los grandes aliados para el estudio de estos fondos de la historia de España. Y los mismos métodos pueden aplicarse también a otros muchos documentos históricos".


El proyecto ha recibido el apoyo del programa de Ayudas a Equipos de Investigación Científica de la Fundación BBVA, en el área de Humanidades Digitales.


Archivo General de Indias


Los fondos del Archivo General de Indias son de un interés excepcional para el estudio de la historia de España en América -desde el sur de Estados Unidos hasta la Tierra de Fuego- y Filipinas de los siglos XV a XIX.


Se trata de manuscritos relacionados con viajes y comercio naval español, cuyo análisis no se puede hacer con las técnicas tradicionales de transcripción OCR -ya que están pensadas para texto impreso- ni tampoco con técnicas específicas para materiales manuscritos, pues los resultados que ofrecen cuando se aplican a estos textos históricos son demasiado imprecisos.


"Carabela ha permitido ir más allá", apunta Joan Andreu Sánchez, investigador también del PHRLT-UPV, "con técnicas de aprendizaje automático que permiten indexar imágenes de texto manuscrito en grandes colecciones de documentos históricos cuyo estado de conservación y enrevesados estilos de escritura hacen casi imposible la lectura de sus documentos por humanos". Estas técnicas son capaces de identificar y discernir los distintos tipos de letras utilizados en cada una de las épocas en las que están datados los documentos e, incluso, analizar imágenes cuya calidad es muy baja.


La clave para ello se encuentra en la capacidad de sus algoritmos para obtener modelos que "aprenden" automáticamente a partir de ejemplos. "Dichos modelos", añade Vidal, "necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios. Estos métodos permiten responder satisfactoriamente a desafíos que los propios documentos plantean, como las diferencias de grafías, los borrones, o la calidad de la imagen".


En este caso, el aprendizaje se hizo con cerca de 500 páginas del Archivo de Indias, que fueron seleccionadas y transcritas por Carlos Alonso y su equipo de especialistas del Centro de Arqueología Subacuática del IAPH.


Referencias españolas a la tierra austral... previas al nacimiento de James Cook


Carabela, que en palabras de Andreu "contribuye a evitar el expolio del patrimonio sumergido", ha sacado a la luz información sobre pecios que constituye un tesoro arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido.


Uno de los hallazgos más sorprendentes localizados en estos fondos se produjo, sin duda, cuando buscando términos relacionados con Australia -tales como "Tierra Austral Incógnita"- los investigadores encontraron una carta de principios del siglo XVIII dirigida al rey Felipe V.


"En esta misiva, escrita por el jesuita Andrés Serrano", explica Vidal, "hemos descubierto referencias muy precisas al continente austral datadas de 1705, mucho antes de que el capitán James Cook llegara hasta sus costas. Se trata de datos poco conocidos sobre la historia de Australia y que ahora descubrimos aplicando las técnicas de indexación y búsqueda probabilística desarrolladas en nuestro centro", indica.


READ, el Siglo de Oro y Transkribus


En esta misma línea de trabajo, el equipo del PRHLT-UPV ha participado en el proyecto europeo READ, que ha estudiado y analizado documentos del siglo de Oro de la literatura española (entre ellos, manuscritos de Lope de Vega pertenecientes a la colección de la Biblioteca Nacional); correspondencia de los Hermanos Grimm perteneciente al Archivo Estatal de Marburgo (Alemania); o documentación del Archivo Nacional de Finlandia, del que se han indexado cerca de 150.000 páginas del millón que se pretende llegar a indexar en futuros proyectos.


Además, en el marco del proyecto se ha desarrollado Transkribus, una plataforma software que trabaja con imágenes de documentos antiguos de gran valor historiográfico. Transkribus se utiliza, fundamentalmente, como herramienta de generación de datos de entrenamiento, ya que las técnicas de reconocimiento de texto manuscrito necesitan datos con los que aprender de manera automática. En un futuro próximo, la herramienta incorporará otras funcionalidades, como entrenamiento automático de modelos para otras lenguas.


READ ha concluido también con la creación de una cooperativa europea de la que la UPV es socia fundadora y que pone a disposición de todos los usuarios registrados el software Transkribus. Actualmente, dicha plataforma cuenta con más de 30.000 usuarios de todo el mundo, lo que la convierte en una herramienta de referencia internacional para todos los historiadores.


Noticias destacadas


Cancerless Cancerless
Un equipo de la UPV participa en un proyecto europeo para prevenir el cáncer y contribuir a su diagnóstico precoz en personas sin hogar
Carreteras más seguras Carreteras más seguras
Investigadores de la UPV y Metalesa desarrollan nuevas infraestructuras inteligentes para mejorar la seguridad vial
Reintroducción del gallipato Reintroducción del gallipato
El proyecto LIFE Renaturwat celebra el Día Mundial del Agua con una iniciativa que mejora la biodiversidad y la conservación de los humedales artificiales
Premi de la Ribera Premi de la Ribera
El doctor por la UPV Joan Borràs, premiado por el Ayuntamiento de Algemesí por un trabajo enmarcado en su tesis doctoral
Proyecto europeo LIVESEEDING Proyecto europeo LIVESEEDING
La UPV trabaja en nuevas semillas ecológicas de pimiento blanco, zanahoria morada y coliflor adaptadas al cambio climático
La gran aportación de la Universidad Pública La gran aportación de la Universidad Pública
Las universidades públicas valencianas generan casi 50.000 puestos de trabajo y elevan el salario medio de la Comunitat un 11%



EMAS upv