Espacio Brújula - 2022-10-14 - Detección de lenguaje tóxico y bullying

Identificación de lenguaje tóxico

Con foco en acoso escolar y cyberbullying

Identificación de lenguaje tóxico con foco en acoso escolar y cyberbullying

14 de Octubre de 2022

En el marco de trabajo de la edición 2022 de Espacio Brújula, donde estudiamos la vida y obra del científico Alan Turing (considerado como uno de los padres de la computación y de la Inteligencia Artificial (IA)), nos propusimos realizar un trabajo que utilice esta tecnología (IA) para ayudar en la detección de acoso escolar y bullying (problemas que también sufrió Turing desde niño por su personalidad).

Hoy día, a más de 70 años que Turing publicara su célebre artículo "Computing machinery and intelligence", donde se preguntaba si las máquinas pueden pensar y a pesar de todos los avances tecnológicos que hemos vivido, nuestros niños, niñas y adolescentes siguen sufriendo situaciones de acoso, muchas veces en su versión moderna conocida como cyberbullying.

Proyecto - Recolección de datos para entrenar una IA capaz de reconocer lenguaje tóxico con foco en acoso escolar y cyberbullying

Si bien existen diversos conjunto de datos (datasets) de acceso público para lo que es detección de lenguaje ofensivo, en su gran mayoría estos datasets existen para el idioma inglés y han sido generados por personas adultas. En general discriminan por categorías de lenguaje ofensivo como ser odio, racismo, lenguaje sexual, etc. pero no existen (hasta donde sabemos) datos públicos en español generados por nuestro público objetivo (niños, niñas y adolescentes) para el problema específico de acoso escolar y bullying.

Dicho esto, el principal objetivo de este trabajo es la recolección de datos para poder entrenar un sistema de Inteligencia Artificial (IA) que sea capaz de detectar lenguaje ofensivo en español con foco en situaciones de acoso escolar y bullying en el ciberespacio.

Para poder entrenar dicho sistema es necesario enseñar a la IA la diferencia entre un lenguaje tóxico y uno que es saludable. Para lograr esto debemos proporcionar ejemplos con ambas características, de forma tal que la IA pueda comenzar a identificar los patrones ocultos detrás de estas formas de lenguaje.

Para lograr dicho fin, hemos creado este formulario que se encuentra al final de esta página para ayudar en la carga de datos. El mismo propone la carga de al menos 5 ejemplos de frases comunes que puedan surgir de una conversación tóxica y 5 ejemplos que por el contrario no tienen indicio de ser tóxicos y que podríamos considerarlos como lenguaje "saludable" (no tóxico).

De forma opcional pueden cargarse más ejemplos, hasta un máximo de 20 en cada una de estas 2 categorías (tóxico o saludable).

Los datos aquí recopilados, informes estadísticos y los modelos de IA generados a partir de estos datos estarán disponibles a través de este sitio web y las actualizaciones serán notificadas a través de nuestras redes sociales (*).

Con el fin de entender las características de quienes participan en la generación de datos (y por ende entender potenciales sesgos que el modelo de IA pueda tener), es obligatorio completar la primera sección que contiene algunas preguntas importantes acerca de las características demográficas del participante (etiquetador). Estos datos son anónimos, pero para poder trackear los ejemplos de un misma persona solicitamos ingresar un nombre de fantasía (de libre elección) en el campo "Nickname".

Como objetivo adicional se espera que este trabajo pueda ser un disparador para actividades de debate con nuestros niños, niñas y adolescentes donde se pueda poner el tema acoso y bullying sobre la mesa, y dejar de ser un tema tabú.

Desde ya agradecemos tu participación y colaboración en este proyecto. Recuerda que una gota de agua sola puede parecer insignificante, pero muchas gotas juntas pueden formar un mar :)

Espacio Brújula.

(*)Instagram: https://www.instagram.com/espbrujula/

Page updated

Google Sites

Report abuse