La IA de Inria transcribe 32.000 manuscritos medievales en 4 meses: ¿pueden realmente los historiadores seguir?

En cuatro meses, una inteligencia artificial ha transcrito más de 32,000 manuscritos medievales. ¿Avance tecnológico impresionante o desafío abrumador para los investigadores? Me sumergí en este proyecto excepcional liderado por Inria y salí fascinado… pero algo preocupado.

Una ia alimentada por años de trabajo humano riguroso sobre manuscritos complejos y multilingües

La aventura comienza lejos de los servidores y los algoritmos: se origina en el trabajo paciente de un equipo de filólogos e investigadores. Durante varios años, ellos han transcrito a mano 200,000 líneas de textos medievales, desde el siglo IX hasta el XVI, en nada menos que 11 idiomas diferentes. ¿Su objetivo? Proporcionar un material de aprendizaje de una riqueza sin igual.

Esta diversidad lingüística y gráfica no es un lujo, sino una necesidad. La escritura manuscrita antigua está llena de trampas: abreviaciones en abundancia, ortografías inestables, errores de copistas jamás corregidos. Es imposible entrenar una IA de manera seria sin exponer al algoritmo a toda esta complejidad. Este corpus heterogéneo, fiel a la realidad de los manuscritos, permite formar un sistema robusto y adaptativo.

El equipo se ha basado en dos software de código abierto, Kraken y eScriptorium, que permiten entrenar un sistema de transcripción visual sin recurrir a los grandes modelos de lenguaje. Una estrategia fructífera: el motor así diseñado evita interpretaciones arriesgadas. No intenta comprender el texto, sino reproducir fielmente cada signo gráfico, como un copista digital ultra preciso.

Un reconocimiento gráfico bruto, rápido y fiable, pero sin interpretación lingüística

Lo que impacta es la velocidad: 32,763 manuscritos transcritos en solo cuatro meses. Documentos procedentes de Gallica, ARCA, E-Codices, Oxford o Múnich, procesados en serie y puestos en línea en la plataforma CoMMA. Para cada texto, se indica el porcentaje de líneas reconocidas correctamente. A veces menos del 50 %, a menudo más del 90 %. Sin reescritura ni correcciones: la transcripción bruta es una revolución metodológica.

Pero, ¿cómo hace una IA para distinguir un «ri» de una «n», o para reconocer un número suscrito? La respuesta es que no comprende: interpreta gráficamente. Y ahí radica todo el reto. Estos modelos no “leen” en el sentido humano, sino que reconocen formas. Se basa en una lógica de reconocimiento visual, no de interpretación semántica. Es un ojo biónico, no una inteligencia hermenéutica.

Por qué las ia como gpt o mistral son ineficaces frente a la escritura manuscrita antigua

Sería tentador imaginar a ChatGPT o Mistral como salvadores, ¿verdad? Mala idea. Estos modelos están formados para producir texto, no para interpretar signos gráficos aislados. Y en la Edad Media, no había ortografía normalizada ni sintaxis rígida. El caos gráfico del manuscrito medieval escapa a los modelos lingüísticos.

De hecho, el reconocimiento de manuscritos se asemeja más al análisis de imagen que a la lingüística. Por eso los investigadores han optado por otro camino: entrenar al algoritmo para ver, no para comprender. Es contraintuitivo, pero de una eficacia asombrosa. Este enfoque visual recupera toda la materialidad del texto antiguo.

Acceso masivo a los textos, pero sobrecarga para los historiadores: un nuevo desafío científico a enfrentar

Con miles de manuscritos ahora accesibles en la plataforma CoMMA, los historiadores cuentan con un tesoro documental. Sin embargo, esta riqueza plantea un paradoja: ¿cómo analizar tantos textos, con el cuidado y rigor necesarios para la interpretación histórica? A veces, un exceso de acceso puede sofocar la comprensión. La abundancia documental se convierte en un desafío metodológico.

Ante esta avalancha de datos, deben surgir nuevas herramientas: exploración semántica, visualización inteligente, priorización de corpus. La IA marca un ritmo frenético, muy alejado del tiempo prolongado del análisis. Ya no se trata solo de leer los textos, sino de organizarlos, relacionarlos y, quizás… reinventarlos. El futuro de la investigación histórica podría ser híbrido, entre humano y máquina.

La IA de Inria transcribe 32.000 manuscritos medievales en 4 meses: ¿pueden realmente los historiadores seguir?

Una ia alimentada por años de trabajo humano riguroso sobre manuscritos complejos y multilingües

Un reconocimiento gráfico bruto, rápido y fiable, pero sin interpretación lingüística

Por qué las ia como gpt o mistral son ineficaces frente a la escritura manuscrita antigua

Acceso masivo a los textos, pero sobrecarga para los historiadores: un nuevo desafío científico a enfrentar

Sobre el autor

Sergio Navarro

Una ia alimentada por años de trabajo humano riguroso sobre manuscritos complejos y multilingües

Un reconocimiento gráfico bruto, rápido y fiable, pero sin interpretación lingüística

Por qué las ia como gpt o mistral son ineficaces frente a la escritura manuscrita antigua

Acceso masivo a los textos, pero sobrecarga para los historiadores: un nuevo desafío científico a enfrentar

Sobre el autor

Sergio Navarro

KEEP READING