La IA desatasca el tapón de miles de legajos históricos sin documentar

La IA desatasca el tapón de miles de legajos históricos sin documentar

Da igual al archivo que mire. Puede ser el de la Chancillería de Valladolid, o el de Simancas, o el de Indias de Sevilla. En todos ellos se acumulan decenas de miles de legajos y documentos históricos pendientes de transcribir, analizar y estudiar por parte de los investigadores. Kilómetros de estanterías que todavía ocultan un mundo de posibilidades porque la costosa, y lenta, labor de estudio desborda la capacidad de los expertos. Pues bien, la Inteligencia Artificial ha venido a resolver en parte este problema con programas que ayudarán a desatascar el embudo.

En España, la Universidad de Valladolid (UVA) es pionera en apostar y desarrollar este tipo de tecnología, que promete reanimar con una nueva vida a viejos archivos históricos que todavía nos ocultan buena parte de sus secretos y tesoros. La vallisoletana es la primera de España en utilizar la plataforma ‘eScriptorum’ de transcripción digital de textos con IA. Pero el objetivo es expandir el modelo por las demás universidades de Castilla y León, en un primer momento, y a Hispanoamérica.

Cata de Umbral a Delibes. Transcrita con un modelo para texto escrito en alemán, por lo que las tildes pueden no estar bien (pueden aperecer diéresis por tildes)Cata de Umbral a Delibes. Transcrita con un modelo para texto escrito en alemán, por lo que las tildes pueden no estar bien (pueden aperecer diéresis por tildes) Cata de Umbral a Delibes. Transcrita con un modelo para texto escrito en alemán, por lo que las tildes pueden no estar bien (pueden aperecer diéresis por tildes)

Hoy, la IA que maneja la Universidad de Valladolid ha refinado en gran medida sus procesos de reconocimiento gráfico y de interpretación y transcripción de textos, si bien necesita la revisión del ser humano. Con este programa, la UVA ha podido realizar la transcripción completa de un documento de 275 folios del siglo XIV, con las peculiaridades de su castellano antiguo, en tan sólo dos horas y media. Incluso añadiendo el proceso previo de digitalización del manuscrito, para que pueda ser usado por la plataforma, y el proceso posterior de comprobación y refinado del resultado obtenido, el trabajo puede concluirse en dos o tres semanas. Con el método habitual hasta ahora hubiera requerido, en cambio, no menos de seis meses, según explica José Manuel Fradejas, catedrático de Lengua Española de Valladolid.

“Yo estoy apasionado con esto”, asegura Fradejas, que empezó a tantear a título personal las posibilidades de estos sistemas de reconocimiento y transcripción ya en 2020, durante la pandemia. “Estoy convencido de que va a proporcionar un espectacular empujón a la investigación histórica al permitir acceder a un gran número de documentos que hoy todavía esperan en los archivos”. Reconoce que “nos están vendiendo mucho humo” con la inteligencia artificial, pero no duda de que puede realizar grandes aportaciones, como la que supone la plataforma eScriptorum.

Con todo, la IA es un mundo de paradojas. “Puede transcribirte 80 páginas perfectamente, sin un solo error, y la siguiente estar plagada de defectos. No es fácil saber por qué”, explica Fradejas. Ahora bien, en el otro lado de la balanza, admite que “ha sido capaz de transcribir legajos que yo era incapaz de entender”.

Libro complido de los judizios de las estrellas traducido bajo Alfonso X el Sabio. Copia del siglo XIV. Ms. 253 de la Biblioteca Histórica de Santa cruz.Libro complido de los judizios de las estrellas traducido bajo Alfonso X el Sabio. Copia del siglo XIV. Ms. 253 de la Biblioteca Histórica de Santa cruz. Libro complido de los judizios de las estrellas traducido bajo Alfonso X el Sabio. Copia del siglo XIV. Ms. 253 de la Biblioteca Histórica de Santa cruz.

El modelo que usa la Universidad de Valladolid está entrenado para identificar latín, francés, castellano… en sus versiones modernas e históricas, y cuenta con herramientas para identificar grafías manuales, incluso si son irregulares. Pero hay algunos documentos que todavía se le resisten: los de muy escasa legibilidad. “Pero también podremos descifrarlos, sólo que hay que refinar el modelo todavía más”, explica Fradejas. Que la plataforma use un software de código abierto facilitará la posibilidad de introducir adaptaciones y mejoras por parte de los investigadores y de los usuarios, a la medida de sus necesidades.

“Se pueden hacer muchas cosas”, asegura Fradejas, quien destaca otros usos posibles para esta Inteligencia Artificial, que van desde la transcripción de documentos históricos de los sindicatos, archivos policiales o del Ejército, hasta los libros de bautismo de las parroquias, “que en muchos casos se están pudriendo”. El catedrático reconoce que no siempre se valora adecuadamente la importancia de los archivos “pero, al final, es lo que queda, y conviene protegerlo porque mucho se destruye por accidente, guerras o a causa de los desastres naturales”.

La aplicación de la plataforma ‘eScriptorum’ en la UVA ha sido posible gracias al impulso de las áreas de Informática y Lengua de la Universidad de Valladolid con el apoyo de su Centro de Inteligencia Artificial (UVaIA). Aunque la presencia de importantes archivos históricos en esta comunidad autónoma también ha sido un factor facilitador del proyecto. La plataforma, que ya se utiliza en universidades de Alemania, Francia y Suiza y EEUU, entre otros países, requiere servidores de alta potencia, por lo que cualquier avance requerirá nuevas inversiones y recursos económicos.

Un inédito de Lope de Vega

En la presentación del proyecto, el catedrático de Informática, Valentín Cardeñoso, resaltó que la puesta en marcha de este nodo en la UVA ha sido técnicamente posible por la presencia del centro de supercomputación SCAYLE, ubicado en León, que lidera la red CLARIAH-ES y proporciona la infraestructura tecnológica necesaria para desarrollar este tipo de proyectos. Cardeñoso se ha encargado del desarrollo técnico del prototipo que está utilizando actualmente la Universidad de Valladolid.

Pero la utilidad de la Inteligencia Artificial para el mundo de las Humanidades no termina aquí. Hace unos años un equipo de profesores de la UVA anunciaron el descubrimiento de una obra inédita de Lope de Vega que no estaba atribuida al escritor. “Ello fue posible mediante un sistema de reconocimiento basada en modelos de estilometría, que miden las pautas y las constantes en el estilo de un creador”, explica José Manuel Fradejas. De este modo fue posible reconocer el arte literario de Lope en una obra que hasta ese momento se había considerado anónima.

Otro de estos modelos estilométricos permitió también desenmascarar la identidad del misterioso escritor Robert Galbraith, autor de la famosa saga del detective Cormoran Strike. Para sorpresa de muchos, quien apareció tras el pseudónimo fue nada menos que la escritora J. K. Rowling, creadora del fenómeno editorial de Harry Potter. Pese a su resistencia inicial, Rowling tuvo que reconocer que era su pluma la que narraba las historias del célebre detective, que ha sido llevado a la televisión. La ‘máquina’ había desnudado y desvelado su escondrijo literario.



{getToc} $title={Tabla de Contenidos}

Publicar un comentario

Artículo Anterior Artículo Siguiente

Formulario de contacto