- -
UPV
 

¿Fue Cook el primer europeo en documentar la tierra austral?

El proyecto Carabela (UPV-IAPH), pone la inteligencia artificial y el 'machine learning' al servicio de los historiadores

[ 24/10/2019 ]

Investigadores de la Universitat Politècnica de València (UPV) y el Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico (IAPH) presentan esta tarde en Sevilla (16.30 h, sede IAPH) los resultados del proyecto Carabela, desarrollado durante los últimos dos años y que ha permitido, a través de técnicas de inteligencia artificial y aprendizaje automático (machine learning), acceder a los contenidos de más de 130.000 imágenes del Archivo General de Indias y el Archivo Histórico Provincial de Cádiz.


"Con estas técnicas", explica Enrique Vidal, investigador del centro Pattern Recognition and Human Language Technologies (PHRLT-UPV), "podemos rastrear cualquier documento gráfico con la misma rapidez que un buscador web, identificando palabras concretas, combinaciones de palabras, frases, etc. Todo ello, gracias a modelos estadísticos que hemos entrenado a partir de ejemplos y que ahora son los grandes aliados para el estudio de estos fondos de la historia de España. Y los mismos métodos pueden aplicarse también a otros muchos documentos históricos".


El proyecto ha recibido el apoyo del programa de Ayudas a Equipos de Investigación Científica de la Fundación BBVA, en el área de Humanidades Digitales.


Archivo General de Indias


Los fondos del Archivo General de Indias son de un interés excepcional para el estudio de la historia de España en América -desde el sur de Estados Unidos hasta la Tierra de Fuego- y Filipinas de los siglos XV a XIX.


Se trata de manuscritos relacionados con viajes y comercio naval español, cuyo análisis no se puede hacer con las técnicas tradicionales de transcripción OCR -ya que están pensadas para texto impreso- ni tampoco con técnicas específicas para materiales manuscritos, pues los resultados que ofrecen cuando se aplican a estos textos históricos son demasiado imprecisos.


"Carabela ha permitido ir más allá", apunta Joan Andreu Sánchez, investigador también del PHRLT-UPV, "con técnicas de aprendizaje automático que permiten indexar imágenes de texto manuscrito en grandes colecciones de documentos históricos cuyo estado de conservación y enrevesados estilos de escritura hacen casi imposible la lectura de sus documentos por humanos". Estas técnicas son capaces de identificar y discernir los distintos tipos de letras utilizados en cada una de las épocas en las que están datados los documentos e, incluso, analizar imágenes cuya calidad es muy baja.


La clave para ello se encuentra en la capacidad de sus algoritmos para obtener modelos que "aprenden" automáticamente a partir de ejemplos. "Dichos modelos", añade Vidal, "necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios. Estos métodos permiten responder satisfactoriamente a desafíos que los propios documentos plantean, como las diferencias de grafías, los borrones, o la calidad de la imagen".


En este caso, el aprendizaje se hizo con cerca de 500 páginas del Archivo de Indias, que fueron seleccionadas y transcritas por Carlos Alonso y su equipo de especialistas del Centro de Arqueología Subacuática del IAPH.


Referencias españolas a la tierra austral... previas al nacimiento de James Cook


Carabela, que en palabras de Andreu "contribuye a evitar el expolio del patrimonio sumergido", ha sacado a la luz información sobre pecios que constituye un tesoro arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido.


Uno de los hallazgos más sorprendentes localizados en estos fondos se produjo, sin duda, cuando buscando términos relacionados con Australia -tales como "Tierra Austral Incógnita"- los investigadores encontraron una carta de principios del siglo XVIII dirigida al rey Felipe V.


"En esta misiva, escrita por el jesuita Andrés Serrano", explica Vidal, "hemos descubierto referencias muy precisas al continente austral datadas de 1705, mucho antes de que el capitán James Cook llegara hasta sus costas. Se trata de datos poco conocidos sobre la historia de Australia y que ahora descubrimos aplicando las técnicas de indexación y búsqueda probabilística desarrolladas en nuestro centro", indica.


READ, el Siglo de Oro y Transkribus


En esta misma línea de trabajo, el equipo del PRHLT-UPV ha participado en el proyecto europeo READ, que ha estudiado y analizado documentos del siglo de Oro de la literatura española (entre ellos, manuscritos de Lope de Vega pertenecientes a la colección de la Biblioteca Nacional); correspondencia de los Hermanos Grimm perteneciente al Archivo Estatal de Marburgo (Alemania); o documentación del Archivo Nacional de Finlandia, del que se han indexado cerca de 150.000 páginas del millón que se pretende llegar a indexar en futuros proyectos.


Además, en el marco del proyecto se ha desarrollado Transkribus, una plataforma software que trabaja con imágenes de documentos antiguos de gran valor historiográfico. Transkribus se utiliza, fundamentalmente, como herramienta de generación de datos de entrenamiento, ya que las técnicas de reconocimiento de texto manuscrito necesitan datos con los que aprender de manera automática. En un futuro próximo, la herramienta incorporará otras funcionalidades, como entrenamiento automático de modelos para otras lenguas.


READ ha concluido también con la creación de una cooperativa europea de la que la UPV es socia fundadora y que pone a disposición de todos los usuarios registrados el software Transkribus. Actualmente, dicha plataforma cuenta con más de 30.000 usuarios de todo el mundo, lo que la convierte en una herramienta de referencia internacional para todos los historiadores.


Noticias destacadas


Warhol, Spoerri, Cage, Ruscha, Yoko Ono... Warhol, Spoerri, Cage, Ruscha, Yoko Ono...
Una selección de la Colección UPV de libros de artista, expuesta hasta el 12 de enero en La Nau
HCR 2019 HCR 2019
Seis investigadores que trabajan en la UPV, entre los más influyentes del mundo
Setciències Setciències
Nuevos capítulos del programa de divulgación científica para los más pequeños producido por UPV TV
En la elite universitaria internacional En la elite universitaria internacional
'Nature' sitúa a la Universitat Politècnica de València entre las 100 mejores universidades jóvenes del mundo
10 nuevas empresas emergentes 10 nuevas empresas emergentes
StartUPV continúa incorporando talento a su ecosistema emprendedor
Del 16 de octubre al 21 de noviembre Del 16 de octubre al 21 de noviembre
La UPV expone "ANCA. Una experiencia de creación colectiva 1989/1994"

EMAS upv