UNAM desarrolla traductor de lenguas indígenas

1372
  • UNAM busca traducir de forma automática lenguas indígenas al español a través del desarrollo de un software.
TONATIÚH RUBÍN / AGENCIA REFORMA

CIUDAD DE MÉXICO.- Un programa que desarrollan especialistas del Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas (IIMAS) de la UNAM busca traducir de forma automática lenguas indígenas al español.

Con este software podrían traducirse wixárica, que se habla en Nayarit; ayuuk, hablado en Oaxaca; mexicanero, en Durango; yorinoqui, en el Estado de México; así como náhuatl clásico y moderno, informó la Máxima Casa de Estudios en un comunicado.

La intención es que la traducción se realice de manera automática, como ocurre con los traductores de inglés a español.

México cuenta con 68 agrupaciones lingüísticas, según el catalogo del Instituto Nacional de Lenguas Indígenas (Inali). Una de ellas es el ayapaneco, que se utiliza en Tabasco, pero quedan muy pocos hablantes, comentó Iván Vladimir Meza Ruiz, titular del proyecto e investigador del IIMAS.

“De ella hay pocos registros, así que la tecnología probablemente llegue tarde para algunas (lenguas indígenas) y no podemos hacer las 68 oficiales, pero hay otras que sí tienen hablantes y que están floreciendo”, sostuvo.

A partir de 2014, el especialista en inteligencia artificial (IA) comenzó a trabajar estos temas tras relacionarse con un estudiante vinculado a la comunidad wixárika o huichol.

César Cruz, uno de sus estudiantes de licenciatura, creó MazahuApp, una app para aprender y enseñar la lengua mazahua.

Delfino Zacarías Márquez Cruz, alumno de maestría, trabaja en un método de interpretación de ayuuk o mixe. Tuvo que realizar trabajo de campo porque no había recursos para entrenar el modelo con el que funcionaría su traductor.

Se basa en redes neuronales, un modelo computacional que imita el proceso de traducción de una lengua a otra. Para eso se requieren ejemplos, como frases traducidas entre ambas, explicó Meza Ruiz.

Márquez Cruz recopiló información para el corpus o cuerpo de datos, que comprende ejemplos de frases equivalentes en ambas lenguas para que el programa aprende a reconocerlas.

“Para lenguas originarias, los corpus más grandes están en cerca de los 10 mil ejemplos, en comparación con los millones de los sistemas comerciales. Estamos muy lejos de tener una experiencia similar a la que tenemos al usar un traductor normal porque tenemos muy poquitos datos”, comentó.

Otra dificultad es que las lenguas indígenas de México son más orales que escritas, así que su escritura es contemporánea. En algunos casos todavía no se decide cómo se escriben ciertas palabras y conceptos.

Además, existen retos para casos particulares, como el wixárica, que se compone de varios vocablos con partículas morfológica, así que lo que en español podría parecer una frase, en realidad es una palabra. Una situación así es difícil de procesar para las redes neuronales.

El traductor de wixárica a español puede consultarse en línea. Es un proyecto de Jesús Manuel Mager Hois, egresado de la maestría en Ciencias de la Computación de la UAM.

Te puede interesar: Indagan ausencia de Blanco para vacacionar