Creación de intérpretes automatizados para las lenguas indígenas
Creación de intérpretes automatizados para las lenguas indígenas
Este es un proyecto con dimensiones humanas y tecnológicas que busca aprovechar las herramientas del procesamiento automático del lenguaje para fortalecer la voz de los hablantes de lenguas ancestrales de América. Estas personas muchas veces viven en un bilingüismo forzado, incompleto y cargado de injusticias, del que muchas veces depende su salud, libertad e integridad.
Sistemas como el traductor de Google ofrecen herramientas para más de 100 lenguas, pero no para las consideradas de bajos recursos lingüísticos por la reducida cantidad de contenidos disponibles en internet. Me parece que seguir priorizando de esta manera es un error porque se puede estar dejando de lado conocimiento clave para mejorar el mundo. Se han abierto en el mundo espacios como el Foro de Saberes Indígenas en la Prevención y Gestión de Riesgos Ambientales, donde mucha gente se queda sin participar, o las ideas no se expresan fielmente, debido a la falta de paralelos en lenguas y culturas dominantes.
Para automatizar un intérprete es indispensable contar con una gran cantidad de ejemplos de frases (habladas y/o escritas) en las dos lenguas involucradas (en este caso el Maya y el Español). Esta colección, conocida como corpus paralelo, se utiliza para entrenar el intérprete digital y, como en todo proceso de aprendizaje, más entrenamiento redunda en un mejor desempeño.
Contar con un gran corpus paralelo Maya-Español es el primer reto dado el reducido número de recursos para los maya-hablantes o lo dispersos que se encuentran los existentes. Haciendo una búsqueda exhaustiva podemos encontrar una variedad de contenido (obras literarias o científicas, videos de eventos, programas de radio, etc.) que se han creado por diferentes autores, con diferentes fines, y por lo tanto, con variantes en la escritura y/o pronunciación. Esta dispersión y falta de uniformidad es otro de los desafíos a los que nos enfrentamos.
Como primer paso decidimos centrarnos en la comunicación médico-paciente donde los malentendidos producen diagnósticos erróneos, prescripciones erróneas y empeoramiento de la salud. Nos encontramos en la disyuntiva entre buscar, homogeneizar y aglutinar los recursos dispersos existentes, o crear un nuevo corpus, con las características que necesitamos. Decidimos optar por la segunda opción y realizar grabaciones de diálogos médico-paciente que aparecen en dos libros de autores yucatecos:
Patricia Martín y Fidencio Briceño
Felipe Castillo Tzec
Las grabaciones se realizaron en un ambiente controlado en la Universidad Intercultural Maya de Quintana Roo, utilizando las voces de ocho estudiantes de la Licenciatura en Lengua y Cultura (2 hombres, 6 mujeres) , dirigida por el profesor Martín Esquivel Pat. Se produjo un corpus paralelo (maya-español), que contiene 3618 archivos de audio, el 20% corresponde a voces masculinas y el 80% a voces femeninas. Aquí presentamos algunos ejemplos:
Voces femeninas
Táan u k’i’inam in paach
Me duele la espalda
Beey yo’omchaja’anen
Si, estoy embarazada
Yaaj in chii’, le beetik ya’ab in túub
Me duele la boca, escupo mucho
Voces masculinas
Yaan wáaj tech se’en
¿tienes catarro?
Le ka j-aajen’, jsa’at in wool
Me desmayé al despertar
Yaaj in wook
Me duele el pie
Este proyecto es liderado por Silvia Fernández Sabido, doctora en ciencias por la Universidad Henri Poincaré de Nancy Francia, con especialidad en física y procesamiento automático del lenguaje. Además es comunicadora y divulgadora de la ciencia en ambientes urbanos y rurales.
El equipo de trabajo se está conformando por personas que ven el lenguaje como un fenómeno maravilloso, portador de historia, conocimiento, identidad y justicia.
Silvia Fernández Sabido, ARKHUM
Laura Mayorga Peniche, ARKHUM/UADY
Laura Peniche Sabido, Educativa México