Thematic Unsupervised Classification

Thematic Unsupervised Classification

This is the first time within the framework of Rest-Mex that an unsupervised classification task has been proposed. For this task, 50,000 news items were obtained on 5 different topics related to tourism. The idea is that given all the collected texts, 5 groups are generated. The system that obtains the classification most similar to the ideal classification (Gold Standard) will obtain the highest result.

All data was obtained from google news. News spread over the last two years regarding the 5 tourism themes (for reasons of competition, these themes will not be revealed) were carefully downloaded and tagged.


The data will be shared in a single set without labels. Entrants must group each text with some tag between 1 and 5. For judging, the organizers will adjust so that each participating system's tags align with the Gold Standard tagging.

The corpus consists of 50,000 news labeled.

Examples

  • "Coronavirus en México: ¿qué hay detrás del súbito aumento de muertes por la pandemia de covid-19? Se registra la cifra más alta de muertes por covid-19. La noticia alarmó a muchos en México: de un día a otro el registro de personas muertas en la pandemia de coronavirus se duplicó."


  • "La Presidenta Municipal de Benito Juárez, Ana Patricia Peralta, participó en los trabajos del “Foro de Buenas Prácticas y Lecciones Aprendidas para la Atención del Sargazo”, que permitirá mejorar la capacidad de respuesta de todas las instituciones públicas y privadas ante el recale de esta macroalga a las costas de Quintana Roo en próximos años."


  • "Sí, tengo que admitir que volar a Mazatlán es caro, yo creo que se tiene que hacer un esfuerzo entre los sectores para negociar y, más que nada, solicitarle al gobierno federal para apoyar con los boletos para tener costos justos, un destino caro recibe menos turismo, declaró."