Detección de posicionamiento de tweets respecto a un conjunto de tópicos

Damián Furman

En este proyecto utilizaremos el dataset de la conferencia Semeval 2016 sobre detección de posicionamiento respecto a un tópico en tweets. El dataset tiene tweets de cinco tópicos distintos, con entre 600 y 700 tweets de entrenamiento y entre 200 y 300 tweets de test para cada tópico. Los tweets están clasificados en tres categorías: a favor del tópico, en contra o ninguno. Además, vamos a proveer tres datasets sobre tres de los tópicos (“legalización del aborto”, “movimiento feminista” y “el cambio climático es una problemática real”) de entre 600K y 700K tweets cada uno sin etiquetar pero con metadata e información extra como el id del usuario que twiteó, la cantidad de favs que obtuvo, la cantidad de retweets, si es un retweet de qué usuario se retwiteo, a quien sigue el usuario que twiteó y quienes lo siguen, entre otras varias cosas más.

El objetivo del proyecto es utilizar la metadata de los tweets para estructurar una gran masa de datos sin estructura aparente y ver de qué manera se puede luego usar eso para mejorar o ayudar con la tarea supervisada o incluso para desarrollar un algoritmo no supervisado o semi-supervisado de clasificación.

Este tema es interesante porque…

Existe una cantidad practicamente ilimitada de datos en redes sociales que no tiene etiqueta pero que tiene una determinada estructura que puede ser analizada y de la que puede extraerse información. Esta información puede luego ser utilizada de diversas maneras y en distintas tareas de ML.

Trataremos de responder algunas de las siguientes preguntas:

Cómo puedo utilizar la información extra que viene asociada a los tweets para una tarea de clasificación?

Cómo puedo utilizar la información extra que viene asociada a los tweets para la tarea de detección de posiciones respecto a un tópico en particular?

Cómo puedo utilizar esa información para elaborar un algoritmo no supervisado? y otro semi supervisado? Cual es la diferencia? Cuales son las ventajas y desventajas?

Puede ayudar esa información extra en la tarea supervisada?

Hay otras tareas para las que la metadata de los tweets pueda servir?

Los datos

Los datos etiquetados para la tarea supervisada se pueden encontrar en https://github.com/DamiFur/DiploDatos-StanceDetection

Las bases de datos sin etiquetar con la metadata correspondiente a usuarios e interacciones en Twitter se pueden encontrar en los siguientes links.

Aborto

Cambio Climático

Feminismo

Hitos de la mentoría

22/6 práctico de análisis y visualización, que consistirá en mostrar estadísticas sobre los datasets supervisados y no supervisados, desviaciones hacia alguna clase, relación entre uno y otro corpus, limpieza de los datos y discutir posibles ideas sobre cómo encarar el análisis.

19/7 práctico de análisis y visualización, que consistirá en graficar los datos con una determinada estructura (posiblemente un grafo, aunque no necesariamente restringido a eso) con los datos ya segmentados según algún criterio basado en la metadata de los tweets

16/8 práctico de introducción al aprendizaje automático, que consistirá en presentar un plan de trabajo con una propuesta de distintas técnicas y algoritmos que se deseen explorar y desarrollando las metas y objetivos que se busquen probar con este trabajo.

13/9 práctico de aprendizaje supervisado, que consistirá en mostrar los resultados de distintos algoritmos utilizando sólo los datos etiquetados

27/9 práctico de aprendizaje no supervisado, que consistirá en mostrar los resultados de distintos algoritmos utilizando los datos sin etiquetar pero con metadata. Se puede también plantear un enfoque mixto (o no) utilizando tanto los datos supervisados como los no supervisados.

6/11/2020 – 7/11/2020 presentación de mentorías

Aborto: https://drive.google.com/file/d/1XSNLlhMMSZ7D-SzuBwbEEXX7dINlxU3h/view?usp=sharing