Objetivos generales
El objetivo general de todas las tareas es, a partir de un tweet de odio argumentativo, generar un texto que sea una respuesta argumentativa, rebatiendo o proporcionando alternativas a la argumentación del tweet original.
Todas las tareas se dividen según el idioma, considerando la generación en inglés y en español.
El dataset está basado en el dataset de discurso de odio HatEval, y cuenta con 970 tweets únicos en inglés y 196 tweets únicos en español. Debido a que el dataset en español es significativamente más pequeño, queremos alentar el uso de modelos multilingües para aprovechar el conjunto de los datos y sobreponerse a los problemas que puedan surgir debido al reducido tamaño del dataset.
El 25% de los tweets en Inglés y el 27% de los tweets en Español son clasificados como No Argumentativos. Los tweets no argumentativos pueden ser incluidos, si así se lo desea y si se considera útil, en cualquier parte del proceso de entrenamiento pero no estarán incluidos en el conjunto que será utilizado para evaluar los resultados de cada equipo.
Para cada tweet se provee únicamente la lista de contranarrativas asociadas al mismo. El objetivo de la tarea es evaluar la generación de contranarrativas en ausencia de información argumentativa adicional.
En los datos de entrenamiento, se identifican en los tweets sus componentes argumentativos, además de la estrategia que se aplicó para construir la respuesta al tweet de odio. Cada contranarrativa está clasificada en cuatro posibles categorías de acuerdo a la estrategia utilizada para generarla.
La evaluación se realizará sobre la partición de test del dataset, con un conjunto de contranarrativas adicionales que no serán publicadas durante el período de la competancia.
La evaluación se basará en métricas de semejanza entre las contranarrativas generadas automáticamente y un conjunto de contranarrativas de referencia, generadas por expertos. Se encuentra disponible el script de evaluación para que cada participante pueda auto-evaluar su modelo de manera similar a como se hará la evaluación final.
Cada equipo podrá enviar para cada tarea y para cada idioma un máximo de 3 archivos con resultados, es decir, un máximo de 3 resultados para la Tarea 1 en inglés, un máximo de 3 resultados para la Tarea 1 en castellano, un máximo de 3 resultados de la Tarea 2 en inglés y un máximo de 3 resultados para la Tarea 2 en castellano. Un equipo puede participar en una sola de las tareas, en dos, en tres, o en las cuatro.
Los archivos deberán enviarse por correo electrónico a contrahate-grupos@unc.edu.ar, con el asunto “envío de resultados equipo <NOMBRE_EQUIPO>”. Cada archivo tendrá que ser nombrado con el número de la tarea y el idioma correspondientes, por ejemplo “Tarea1_castellano.csv”. Los archivos tendrán que tener el siguiente formato:
id_tweet,contranarrativa
id_tweet,contranarrativa
id_tweet,contranarrativa
id_tweet,contranarrativa
id_tweet,contranarrativa
id_tweet,contranarrativa
…
id_tweet,contranarrativa
Para cada archivo de contranarrativas generado con las especificaciones anteriores, se ejecutará el script de evaluación para la obtención de tres métricas. Cada contranarrativa generada automáticamente para el dataset de test se comparará con las redactadas por expertos que han sido reservadas para evaluación y no fueron publicadas, con las siguientes métricas:
Métrica de semejanza de oraciones, utilizando embeddings de sentencias obtenidos de SentenceBERT con la distancia coseno (entre 0 y 1).
Métrica BLEU (entre -1 y 1).
Métrica de semejanza basada en word embeddings y distancia coseno (entre 0 y 1).
Cada resultado enviado por cada equipo se ordenará usando las primeras dos métricas, semejanza de oraciones y BLEU. La tercera métrica aporta información útil para mejorar la comprensión del funcionamiento de los sistemas y la complejidad de la tarea pero no será usada para ordenar los resultados de los sistemas.
Para obtener el resultado de una métrica para un equipo, se comparará cada contranarrativa con todas las contranarrativas generadas por expertos para el tweet correspondiente. El resultado para cada comparación será el mayor valor de semejanza obtenido de estas comparaciones, es decir, el valor de semejanza con la contranarrativa generada por expertos más semejante a la contranarrativa generada automáticamente.
El resultado global obtenido por un equipo será el promedio de semejanza obtenido por semejanza de oraciones. Como métrica secundaria se usará BLEU, para diferenciar equipos que obtengan valores muy parecidos en semejanza de oraciones. Si estos valores también son semejantes, se procederá a dividir el premio y el lugar del podio entre las partes.
El dataset puede descargarse en formato brat o en formato conll.
El formato Conll posee la siguiente información:
0. Token
1. Si es o no No Argumentativo
2. Justificación
3. Conclusión
4. Colectivo
5. Propiedad
6. Pivote
7. Tipo de Justificación
8. Tipo de Conclusión
En la misma carpeta en la que se encuentran los archivos .conll se encuentra un archivo extra con extensión .cn que posee una contranarrativa por cada línea
Todos los concursantes premiados que queden en algún lugar dentro del podio deberán demostrar la reproducibilidad de sus resultados. Para esto recomendamos compartir el modelo entrenado, aunque se pueden contemplar diferentes alternativas. Previamente a definir el ganador, se constatará que el modelo utilizado genere efectivamente, para los tweets de evaluación, las mismas contra-narrativas que fueron enviadas a la competencia. Es importante constatar que los modelos sean determinísticos y ante un mismo input generen siempre el mismo output.
Podés inscribirte en el formulario de registro, para recibir noticias y actualizaciones sobre el desafío.
El 1 de Noviembre se disponibilizará un formulario para el envío de resultados, que quedará abierto hasta el 25 de Noviembre a las 11:59 AoE. El formato de los envíos será un archivo de texto plano, con una lista donde el identificador de cada uno de los tweets de odio del conjunto de evaluaicón quede asociado a una única contranarrativa, generada automáticamente.
Cada equipo podrá enviar hasta tres ejecuciones, es decir, hasta tres archivos diferentes donde un identificador esté asociado a una contranarrativa.
Después, cada equipo podrá enviar una breve descripción (máximo 4 páginas) de su sistema, junto con un repositorio donde se encuentre alojado el código del sistema. Los diferentes sistemas serán presentados en un workshop en formato híbrido el 16 de diciembre y sus descripciones serán publicadas en un volumen compilatorio con ISBN.
Más información en Fechas importantes.