O Reto Os grans modelos como ChatGPT no charran bien l'aragonés. Les fan falta "datasets": coleccions de textos pa poder avaluar a nuestra luenga.
A Misión Dende a Universidat de Zaragoza buscamos charradors pa poder crear estes datasets. O tuyo treballo? Revisar y correchir traduccions automaticas curtas (de 6 a 15 parolas).
Cuán y án? Organizaremos un "Datathon" (sesión de treballo) en o Campus Río Ebro (Zaragoza) lo viernes 13 de marzo, 2026, de 15:00 a 19:00.
Conchunto de multiples datasets pa prebar la eficacia d'os LLMs (Large Language Models, como ChatGPT) a la hora de charrar aragonés
Abance en representación de luengas minoritarias en o mundo dichital
Imprescindible pa amillorar las capacidaz d'estes modelos en luenga aragonesa
Disponibles librement en HuggingFace y Github (proximament)
Per qué se diz "cadiera"? Perque l'obchectivo ye obtener “Benchmarks” (bases de datos de prebas) en aragonés (“bench” > “banco” > “cadiera”)
Mientres que lo castellán, lo catalán, lo gallego y l'euskera tienen un numero creixient de recursos pa avaluar modelos d'IA en estas luengas, l'aragonés nomás conta con un recurso!
Aduya-nos a cambiar esta situación!
Si quiers, puez colaborar con nusatros:
Lo día 13 de marzo, 2026, de 15:00 a 19:00
Edificio I+D, Campus Río Ebro, Zaragoza
O
Online (Calendatas por determinar)
Si quiers apuntar-te pa colaborar online, fe-lo aquí!