miércoles, 19 de octubre de 2016

La tecnología al servicio de las lenguas originarias

La noticia proviene del diario La Jornada, de México, y fue publicada el 30 de septiembre pasado. Por el número de hablantes de esta lengua, se trata de un dato sensible.

Investigadores de la UNAM crean Axolotl,
base para traductor del náhuatl

Ciudad de México. Con el fin de relacionar el lenguaje natural y la computación para que se desarrollen y apliquen sistemas informáticos que lo procesen, analicen y sinteticen, ingenieros de la UNAM crearon y pusieron en marcha Axolotl, el primer corpus o repositorio digital con 38 libros y cerca de un millón de palabras en español-náhuatl, único recurso hasta ahora para la generación de un traductor automático.

El náhuatl tiene un millón 586 mil 884 hablantes en México, convirtiéndolo en la segunda lengua materna más hablada en el país, por ello Ximena Gutiérrez Vasques, coordinadora del proyecto, detalló que entre las ventajas del corpus listo para consultarse destacan la facilidad de acceso gratuito y para cualquier persona interesada.

Además de la cómoda obtención de la información, el corpus captura la variedad de la lengua, ya que contiene palabras con variación dialectal y diacrónica, es decir la diversidad del náhuatl y la época en que fueron escritos.

“Por ejemplo, si alguien quiere saber cómo se dice cerro, ingresa al corpus, busca la palabra o frase y le aparecerá una serie de fragmentos de los textos donde el sistema encontró el vocablo cerro, así como el fragmento asociado en la lengua náhuatl, no se desplegará propiamente la traducción de la palabra, sino que mostrará la oración donde la localizó”.

Al ser el primer repositorio de conocimiento en su tipo, se busca impulsar desde la Universidad Nacional la generación de tecnologías para las lenguas mexicanas.

Antecedentes de la integración
Gutiérrez Vasques, también profesora de la Facultad de Ingeniería, agregó que el proyecto surgió como parte de su doctorado con el fin de que se tuviera acceso a una colección de traducciones digitales español-náhuatl. “El problema al que me enfrenté es que es una lengua que no tiene norma ortográfica y muchos de los libros son antiguos y sin digitalizarse.

El primer paso fue buscar y recopilar los textos, los digitalizamos y conformamos el repositorio con temáticas diversas que van desde religiosos, históricos, didácticos, hasta musicales, recetarios o cuentos. Además, incluyen diversas variaciones dialectales. Lo llamamos Axolotl porque ese es el nombre original del ajolote en náhuatl”.

Se debe tener en cuenta la colaboración del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) y el Instituto de Ingeniería (II), ambas de la máxima casa de estudios.

Actualmente el corpus está listo para consultarse; sin embargo, se mantiene en actualización, ya que la ingeniera Ximena Gutiérrez haría uso de él para constituir un diccionario bilingüe español-náhuatl.

“Nuestro compromiso es con la enorme diversidad lingüística de México, nuestra aportación constituye un primer paso para la creación de tecnologías que no existían para esta lengua mexicana”, finalizó.

No hay comentarios:

Publicar un comentario en la entrada