Es habitual encontrar objetos que confirman la milenaria presencia de los judíos en Israel y a veces esos hallazgos son espectaculares pero no se pueden comprender en su totalidad: ahora, la inteligencia artificial se asoma como nueva herramienta para, por ejemplo, traducir textos antiguos dañados o incompletos.
El máximo ejemplo de esta situación son los Rollos del Mar Muerto, una serie de escritos en pergamino que un pastor beduino halló por casualidad en 1947 en una cueva a pocos metros de las orillas del famoso lago salado.
Los manuscritos, que tienen unos 2.000 años y fueron escritos principalmente en hebreo, brindaron una ventana excepcional a la vida judía de la época en Tierra Santa. Algunos textos están completos, pero hay miles de fragmentos en mal estado que no pudieron ser descifrados.
Frente a este problema, un equipo de investigadores de la Universidad Ben-Gurion del Negev, en el sur de Israel, desarrolló un sistema de inteligencia artificial capaz de llenar los espacios vacíos de estos rompecabezas arqueológicos.
«Sabíamos que la tarea no iba a ser fácil», reconoció el profesor Mark Last, quien supervisó al grupo de jóvenes científicos que asumió el desafío.
El lenguaje enmascarado
El sistema aplica MLM, la sigla de masked language modeling, o modelos de lenguaje enmascarado, en español. Se trata de un tipo de aprendizaje informático autosupervisado en el que el modelo «aprende a producir texto sin etiquetas ni anotaciones explícitas», explican los expertos.
Con este método, la clave pasa por la utilización del contexto para predecir palabras «invisibles» en una frase u oración. En este caso, para descifrar el texto en inscripciones dañadas en hebreo y arameo.
En estos casos, le dijo el profesor Last al portal NoCamels, las partes que faltan «pueden ser diferentes» a lo que el sistema de IA ya «conoce». A veces, abundó, «incluyen una palabra o una palabra parcial, y otras veces incluyen varias palabras».
El proyecto, contó el académico, tomó aproximadamente un año para completarse. Fue llevado a cabo por cuatro estudiantes del Departamento de Ingeniería de Software y Sistemas de Información de la universidad y todos recibieron la máxima calificación posible por su trabajo.
Last explicó que debido a la escasez de textos arameos para «alimentar» al sistema de lenguaje de IA, los investigadores se concentraron en el hebreo, utilizando el Antiguo Testamento para «entrenar» la plataforma.
El Antiguo Testamento como «entrenador»
En total, reveló, el equipo utilizó 22.144 frases del Antiguo Testamento que, además, sirvió como una base sólida para confirmar los resultados.
«Si ‘enmascaramos’ palabras o partes de palabras al azar e intentamos predecir lo que falta, siempre podemos comprobar» la precisión, destacó.
Métodos como este, bautizado Embible, son de gran importancia porque muchos textos antiguos todavía tienen secretos escondidos entre los pergaminos, esperando alguien que los pueda traducir.
Por ejemplo, en mayo del 2020, investigadores de la Universidad de Manchester, en Inglaterra, descubrieron fragmentos de texto en hebreo, incluyendo la palabra Shabat perfectamente legible, en partes de rollos del Mar Muerto que se pensaba estaban en blanco.