Data & Evaluation

Data description

The DIMEMEX dataset consists of around 3,000 memes, compiled from public Facebook groups rooted in Mexico and manually annotated on the presence of hate speech, inappropriate content, and harmful content.

DIMEMEX dataset classes hate speech, inappropriate content, and harmful content will be considered for Task 1. Detection of Hate Speech, Inappropriate, and Harmless Memes and Task 3. Detection of Hate Speech, Inappropriate, and Harmless Memes Using LLMs.

On the other hand, DIMEMEX labeled sub phenomenons: classism, sexism, racism, and others; derived from the hate speech class will be the subclasses used for Task 2. Finer-grained detection of Hate Speech in Memes.

Sample memes from DIMEMEX dataset

Warning: This samples may be offensive to some readers, these do not represent the perspectives of the authors.

Category: Neither/Harmless

OCR text: Yo viendo que son las 1:59 AM /////Y de pronto cambia a las 03:00 AM

Image Caption: La imagen es un meme que consta de dos paneles extraídos de una escena de un programa de televisión. El personaje en el primer panel tiene una expresión relajada y sonriente, mientras que en el segundo panel su rostro muestra una sorpresa extrema, con los ojos muy abiertos.

Category: Hate Speech

OCR text: Tijeras para mujeres

Image Caption: La imagen muestra un paquete de tijeras de cocina de la marca "EKCO". En la parte superior derecha del empaque aparece el texto "Para nosotras, las mujeres". El diseño del empaque incluye una foto de un pimiento rojo en un plato decorativo, acompañado de una breve descripción de las tijeras: "Tijeras, multifuncionales para la cocina, buenas, fuertes y resistentes".

Category: Inappropriate Content

OCR text: Wody para eso se usan los condones para evitar que nazcan pendejos como este.

Caption: La imagen muestra una escena de los personajes Woody y Buzz Lightyear de la película Toy Story, colocados en un contexto humorístico. Buzz Lightyear aparece señalando algo fuera de cuadro con una expresión seria, mientras Woody lo mira con una mezcla de desconcierto y resignación.

Evaluation details

All subtasks will rely on the DIMEMEX dataset. Thus, participants would be able to join either one, two, or all three tasks.

Submissions will be evaluated on the test partition considering macro f1 score, macro precision and macro recall measures. In all tasks, the leading evaluation measure will be macro f1 score.

All task challenges will be run on the CodaLab platform. Also, baseline performances will be released for all tasks considering the use of either or both available modalities (text, image, text-image).

CodaLab Link

Page updated

Google Sites

Report abuse