Cuarto Taller Mexicano de
Detección de Plagio y Análisis de Autoría
7-8 de octubre de 2019
La Web no es sólo el repositorio de información digital más grande que se ha inventado, también es una gran plataforma de comunicación. Su desarrollo actual ha permitido el intercambio de información entre personas de diferentes lugares, edades, culturas y condiciones sociales. Sin embargo, esto también ha facilitado la diseminación de textos anónimos así como el uso y copia inapropiados de contenidos de otros. Esta situación ha generado gran interés entre los investigadores para desarrollar tecnologías de Detección de Plagio y enfoques de Análisis de Autoría, los cuales se centran en responder preguntas importantes como, dado un documento, ¿Es un documento original?, ¿Quién lo escribió?, ¿Cuáles son los rasgos de escritura de su autor?
En particular este taller pretende ser un foro donde reunir a todos los investigadores interesados en alguno de los siguientes temas:
- Detección de plagio
- Atribución de autoría
- Verificación de autoría
- Caracterización de usuarios de redes sociales
- Análisis y predicción de personalidad a partir de texto
- Detección de comportamientos y eventos negativos en red sociales (por ejemplo, acoso sexual, bullying, discriminación, etc.)
Invitados Magistrales
Dra. Nairán Ramírez Esparza
Conferencia: Análisis factoriales de palabras para entender constructos de personalidad y salud en distintas lenguas
Actualmente trabaja como profesora asociada de la Universidad de Connecticut en el departamento de Psicología. Sus estudios principalmente responden preguntas sobre cómo la cultura y el lenguaje influyen la personalidad, el comportamiento y la salud. Para responder a estas preguntas, la Dra. Ramírez utiliza múltiples enfoques metodológicos, incluyendo dispositivos de grabación digital, y herramientas para analizar textos. Nairán Ramírez nació en la ciudad de México, pero se mudó a muy temprana edad a la ciudad de Puebla donde hizo sus estudios de licenciatura en Psicología en la Universidad de las Américas. Después se especializó en Psicología Social e hizo una maestría en la Universidad Nacional Autónoma de México y un doctorado en la Universidad de Texas en Austin. La Dra. Ramírez tuvo la oportunidad de hacer un posdoctorado en la Universidad de Washington en Seattle antes de mudarse a Connecticut en el 2012.
Dra. Verónica Pérez Rosas
Video Conferencia: Computational Models for Fake News and Misinformation Detection
Verónica Pérez Rosas is an Assistant Research Scientist at University of Michigan. She received her Ph.D. in Computer Science and Engineering from the University of North Texas in 2014. She is a member of the Language and Information Technologies group at University of Michigan. Her research interests include machine learning, natural language processing, computational linguistics, affect recognition, and multimodal analysis of human behavior. Her research focuses on developing computational methods to analyze, recognize, and predict human affective responses during social interactions.
Dra. Katharina Kann
Conferencia: Transfer Learning for Low-Resource Natural Language Processing
Katharina Kann is a postdoc at New York University in New York, USA, working with Samuel R. Bowman and Kyunghyun Cho. Prior to that, she was a PhD student under the supervision of Hinrich Schütze at LMU Munich, Germany. The main focus of her research lies on deep learning for natural language processing. In particular, she is interested in morphology and approaches for settings with limited annotated training data. She won the SIGMORPHON 2016 shared task on morphological reinflection as well as more than half of the subtasks of the follow-up edition of the shared task in 2017.
Resumen de Conferencias
Dra. Nairán Ramirez Esparza:
Conferencia: Análisis factoriales de palabras para entender constructos de personalidad y salud en distintas lenguas.
Resumen: Debido al rápido desarrollo de softwares, se ha popularizado el uso de herramientas automáticas de análisis de texto para entender aspectos psicológicos. Una de estas herramientas es conocida como el “Meaning Extraction Method” o MEM. El MEM se basa en cuantificar las palabras más frecuentes utilizadas en un texto y mediante análisis factoriales se extraen los temas más significativos mencionados en el texto. En esta plática me enfoco en describir este método utilizando como ejemplos resultados de análisis de textos de personas de México y de Estados Unidos cuando describen su personalidad, así como textos de personas que hablan sobre su depresión en foros de internet en inglés y español. El método es ideal para hacer estudios en distintas lenguas porque solo cuantifica palabras sin importar su significado y es por esto que el método ayuda a entender diferencias culturales sin tener que acudir a la traducción de cuestionarios. Por ejemplo, el MEM demuestra que los mexicanos al describir su personalidad utilizan temas relacionados con la familia, mientras que los estadounidenses utilizan temas relacionados con la independencia. Los resultados de estos estudios indican que aspectos psicológicos y culturales pueden ser examinados de una manera innovadora mediante el uso de métodos cuantitativos como el MEM.
Dra. Verónica Pérez Rosas
(Video Conferencia): Computational Models for Fake News and Misinformation Detection
Abstract: Identifying trustworthy information sources has become a challenging task for humans due to the increasing proliferation of misleading information in everyday media outlets, such as newspapers or social media feeds. The need for accurate and unbiased methods for the identification of misinformation has motivated the development of data-driven methods to address this task. Automatically spotting misinformative content requires not only to find false claims but also identifying linguistic and behavioral patterns that characterize this type of content. In this talk, I will present our ongoing efforts on developing resources and computational models for the automatic detection of fake news and other forms of misinformation. I will discuss the challenges associated with building these resources and detecting fake content in everyday news and online medical videos.
Dra. Katharina Kann
Conferencia: Transfer Learning for Low-Resource Natural Language Processing
Abstract: The lack of reliably annotated corpora is one of the big bottlenecks for the processing of natural language, especially in languages different from English. If corpora are available, they are usually too small to train state-of-the-art deep learning models on them. In this talk, we will discuss several strategies to increase the applicability of data-hungry state-of-the-art approaches in settings where training data is limited. Namely, we will discuss multiple options for transfer learning, including pretraining, domain adaptation, multi-task training, and cross-lingual transfer. Finally, we will look at applications of those methods to morphological generation tasks.