18 de agosto
No voy a poder dar la primera clase de Text Mining porque voy a estar viajando! vamos a recuperarla la semana próxima, el día viernes. Lamento la poca antelación en avisar!
Para ir entrando en materia, pueden leer los siguientes artículos de la Wikipedia:
https://en.wikipedia.org/wiki/Natural_language_processing
https://en.wikipedia.org/wiki/Unsupervised_learning
también pueden ver los videos del curso de introducción al Procesamiento del Lenguaje Natural de Stanford.
y si tienen ganas de poner manos a la masa, sigan el tutorial práctico de la librería Spacy, que les proveerá muchas herramientas y pequeñas introducciones a los conceptos que trabajan.
23 de agosto
referencia: capítulo 3 de Manning y Schütze 1999
filminas:
unas filminas de 2005 sobre arquitecturas clásicas de PLN y algunas cosas más
para ampliar:
Emily Bender. 2013. Linguistic Fundamentals for Natural Language Processing. 100 Essentials from Morphology and Syntax. Morgan Claypool. (https://doi.org/10.2200/S00493ED1V01Y201303HLT020)
25 de agosto
referencia: capítulos 1 y 2 de Machine Learning, de Tom Mitchell.
filminas: Introducción a Machine Learning de Alex Smola.
para ampliar:
leer los libros
videolectures simples y cortas del clásico curso de Machine Learning en Coursera a cargo de Andrew Ng: 1.1. 1.2 1.3
videolectures más de horizonte:
Never Ending Language Learning, (Tom Mitchell) video lecture on our computer that is learning to read the web, Brown Univ., Feb. 2014.
Natural Language Processing with Deep Learning, a cargo de Chris Manning y Richard Socher.
algunas más prácticas:
un tutorial cualquiera de Machine Learning con Python
Kaggle, plataforma de concursos de Machine Learning
Knime, plataforma visual para hacer Machine Learning
27 de agosto
Taller de Ética Práctica para Ciencia de Datos, en particular:
Definiciones básicas [Video]
Algunos casos concretos para profundizar [Video]
Ejercicios de pensamiento de la Caja de Herramientas Humanísticas [Video]
Barreras para el cambio y consensos sociales para integrar [Video]
y la sección de recursos del taller
30 de agosto
filminas: Extracción automática de argumentos en texto legal, de Cristian Cardellino y Milagro Teruel
filminas: Esquemas argumentativos para generar contranarrativas en discurso de odio, de Damián Furman, Vanina Martínez y Laura Alonso Alemany
formulario: ¿te parece que estos tweets son discurso de odio?
formulario: ¿te parece que estos tweets son argumentativos?
Tarea pública hatEval de detección automática de discurso de odio en tweets en inglés y en castellano
Motor de búsqueda de argumentos en la web originado en el Ubiquitous Knowledge Processing Lab
Algunos artículos que mencionamos en la clase de hoy:
usar el subreddit Change My View para aprender a identificar argumentos a favor o en contra: AMPERSAND: Argument Mining for PERSuAsive oNline Discussions, Tuhin Chakrabarty, Christopher Hidey, Smaranda Muresan, Kathleen Mckeown, Alyssa Hwang, EMNLP 2019, y muchos otros trabajos con el subreddit CMV.
identificar esquemas ad hominem: Before Name-Calling: Dynamics and Triggers of Ad Hominem Fallacies in Web Argumentation, Ivan Habernal, Henning Wachsmuth, Iryna Gurevych, Benno Stein, ACL 2018 (con su dataset!! al final de la página)
1 de septiembre
referencia: capítulo 5 de Foundations of Statistical Natural Language Processing de Manning y Schütze
filminas: Collocations de Rada Mihalcea y Lexical Acquisition de Nathalie Japkowicz
para ampliar:
la tarea compartida de PARSEME para identificar expresiones verbales multipalabra
Cross-Lingual Induction and Transfer of Verb Classes Based on Word Vector Space Specialisation, de Ivan Vulić, Nikola Mrkšić, Anna Korhonen, EMNLP 2017.
Probabilistic Distributional Semantics with Latent Variable Models, de Diarmuid Ó Séaghdha y Anna Korhonen, Computational Linguistics 40 (3), 2014.
6 de septiembre
referencia: capítulos 15, 16 y 17 de Speech and Language Processing (3a edición) de Jurafsky y Martin
filminas: Filminas sobre embeddings que usamos en la Diplomatura en Ciencia de Datos
filminas: Las filminas correspondientes a ese capítulo, Vector Semantics, del mismo libro, pero antes veremos un poquito sobre semejanza entre palabras SIN espacio vectorial. También usaremos algunas filminas sobre cómo se construye la representación de palabras en un espacio vectorial de Gemma Boleda y Marco Baroni para el curso de NLP de Ray Mooney.
Más adelante vamos profundizar sobre el espacio vectorial con Cristian Cardellino. Usaremos estas notebooks, por si quieren empezar a jugar: notebook sobre Vector Space Models, notebook sobre reducción de dimensionalidad y notebook sobre retrofitting.
8 de septiembre
hoy, un poco más concreto, con código :)
referencia: materiales del curso de Natural Language Understanding de Chris Potts y Bill McCartney
espacio vectorial y distancias
código alternativo: de Cristian Cardellino, notebook sobre Vector Space Models y notebook sobre reducción de dimensionalidad
13 de septiembre
referencia: An Introduction to Variable and Feature Selection. Isabelle Guyon and André Elisseeff. Journal of Machine Learning Research 3 (2003) 1157-1182
referencia: capítulos sobre flat y hierarchical clustering del libro Information Retrieval de Chris Manning, Prabhakar Raghavan y Hinrich Schütze
filminas: mis mini-filminas (vista de pájaro) sobre clustering, y unas filminas ampliadas sobre flat clustering y hierarchical clustering asociadas al libro
presentamos el práctico de clustering! lo discutiremos en clase los días 20 y 27, la primera entrega (enviarme el link al repo) es el día 24 de septiembre, segunda entrega el 1 de octubre
15 de septiembre
referencia: el clásico paper de Hinrich Schütze Automatic Word Sense Discrimination, volveremos al de Pantel y Lin Discovering Word Senses from Text y haremos un vista de águila sobre el método basado en grafos de Jean Véronis, HyperLex: lexical cartography for information retrieval
filminas: no, pero daremos un bonito paseo por las diferentes ediciones de SenSeval, SemEval e IberLeF
Discovering Word Senses from Text de Pantel y Lin en el KDD 2002.
20 de septiembre
referencia: el capítulo n. 2 del libro Web Data Mining de Bing Liu y también pueden revisar el artículo de la wikipedia
filminas: filminas en castellano de Georgina Flesia, Valeria Rulloni y mías, basadas en las filminas sobre reglas de asociación del curso Data Mining and Text Mining de Bing Liu
notebook: notebook de Valeria Rulloni aplicando Apriori
22 de septiembre
referencia: el artículo de la Wikipedia sobre semi-supervised learning y weak supervision, el survey de 2006 (!!) de Jerry Zhu y el clásico paper de Yarowsky 1995 (!!!) Unsupervised Word Sense Disambiguation Rivaling Supervised Methods
filminas: filminas sobre aprendizaje semi-supervisado con Georgina Flesia y Valeria Rulloni basadas en Tutorial sobre semi-supervised learning de Jerry Zhu en ICML 2007
para curiosear: Workshop sobre Weakly Supervised Learning en ICRL 2021
y vemos un poco más sobre el práctico de clustering?
27 de septiembre
clase cancelada
29 de septiembre
referencia: Statistical MT Handbook by Kevin Knight
cfilminas: Intro a SMT de Kevin Knight y Philip Koehn y el blogpost de Jay Alammar sobre atención y, si da tiempo, el blogpost sobre transformers.
4 de Octubre
TASS: research on sentiment analysis in Spanish, desde positivo - negativo (2012) hasta emotion detection (2020), incluye un dataset etiquetado!
pysentimiento: A Python toolkit for Sentiment Analysis and Social NLP tasks, para el castellano!
SemEval 2016 - stance detection in Tweets y su dataset, y nuestro trabajo con este dataset: Furman et al. (2021) You can simply rely on communities for a robust characterization of stances
Vaxxstance: detecting stance wrt vaccines
HatEval: Hate Speech detection in Twitter against women and immigrants
Detección de patologías psiquiátricas y neurodiversidades a través de texto:
CLPsych, The Workshop on Computational Linguistics and Clinical Psychology
Sigmind, una empresa argentina que ofrece apoyo a psicólogos mediante PLN, que recibió un premio recientemente
La detección de emociones se está posicionando como la nueva frenología, como un mecanismo de control. Pueden buscar voces críticas con respecto a esta tecnología, especialmente en despliegues específicos?
6 de Octubre
warm-up: Time to regulate AI that interprets human emotions, de Kate Crawford en Nature (abril 2021)
visitaremos el Workshop on Noisy User-generated text
algunas filminas introductorias a análisis de redes sociales
y vean de agendar las reuniones preliminares para discutir de su proyecto!
13 de Octubre
Diagnóstico del momento en el que nos encontramos: en la habitación china de Searle, como desarrollan el blogpost The clever Hans moment for NLP y el paper Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data
Pero históricamente hemos querido acercarnos a la comprensión, mediante ontologías (especificándolas y manipulándolas con Description Logics)
algunas ontologías generales: WordNet, EuroWordnet, YAGO
ontologías de dominio específico (ciencias de la vida): MESH, The Gene Ontology
Población y enriquecimiento de ontologías
Extracción de hechos: Names and Similarities on the Web: Fact Extraction in the Fast Lane, Marius Pasca, Dekang Lin, Jeffrey Bigham, Andrei Lifchits and Alpa Jain, ACL 2006
18 de Octubre
a cargo de Mauricio Mazuecos
filminas de Mauri (con muchos links útiles al final!)
Directorio de notebooks para Deep Learning de la Diplomatura en Ciencia de Datos
Notebooks sobre RNNs para Martín Fierro
20 de Octubre
a cargo de Cristian Cardellino
basado en la notebook sobre word embeddings del curso sobre Deep Learning para la Diplomatura en Ciencia de Datos
25 de Octubre
Sistemas de diálogo conversacionales: Eliza,
Modelos Ocultos de Markov y el Algoritmo de Viterbi para entrenarlos
Cómo se comparan los Modelos Ocultos de Markov con los Conditional Random Fields, y una comparación más sistemática entre HMMs y CRFs
27 de Octubre
lectura: The Illustrated Transformer, de Jay Alammar, blogpost muy ameno sobre transformers y autoatención
¿tiene sentido procesar las secuencias lingüísticas en batch, y no secuencialmente? Desde la perspectiva del procesamiento humano, piensen en las garden path sentences y en las lenguas SOV, que tienen el verbo al final de la oración (no confundir con lenguas OSV, como la que habla Yoda, que son las más raras con muchísima diferencia).
Sentence Bert, un embedding para oraciones más allá de las palabras
Un paper sobre métricas de evaluación (por si se les ocurría alguna... seguro ellos ya la pensaron)
1 de Noviembre
3 de Noviembre
a cargo de Milagro Teruel
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing, Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, Graham Neubig
Language Models are Unsupervised Multitask Learners, Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever
Language Models are Few-Shot Learners, Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei
Finetuned Language Models Are Zero-Shot Learners, Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le
8 de Noviembre
filminas: Chatbots & Dialogue Systems de Jurafsky & Martin
lectura: Chatbots & Dialogue Systems de Jurafsky & Martin
Algunos frameworks: Deep Pavlov, RASA
10 de Noviembre
15 de Noviembre
con Juan Junqueras y su presentación sobre DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks
veremos la charla de Claire Cardie Information Extraction Through the Years: How Did We Get Here? (keynote en el EMNLP 2021)
comentaremos brevemente el paper Template Filling with Generative Transformers, de Xinya Du, Alexander M. Rush y Claire Cardie
17 de Noviembre
con Hernán Maina y Mauricio Mazuecos
El área de diálogo visual se centra en el procesamiento de diálogos contextualizados en un recurso visual (ej. una imagen). Este área ha sido de especial interés para la comunidad de visión por computadora. Sin embargo en los últimos años la comunidad de procesamiento de lenguaje natural ha estado haciendo importantes contribuciones al área desde modelos para mejorar la riqueza lingüística de los agentes automáticos que participan en estos diálogos a métricas de evaluación y conceptos teóricos. En este último punto se encuentra el tema de este seminario. En este seminario se hará una introducción al área de diálogo visual, enfocándose principalmente en la tarea de diálogo visual orientado a tareas y el conjunto de datos de GuessWhat?!. Se hará una exposición de las capacidades deseadas que deben tener los agentes automáticos que participan en esta tarea y se expondrán los aportes hechos por el grupo de procesamiento de lenguaje natural de FAMAF.
24 de Noviembre