Programa 2017

PROGRAMA

1- Herramientas computacionales para el procesamiento automático de textos


2- Titular y Colaboradores

Titular:

Julia Milanese

Colaboradores:

Federico Alvarez

Catalina Rubio

Victoria Colombo


3- Fundamentación y descripción del programa

En los últimos años, las ciencias de la computación han desarrollado una amplia variedad de herramientas de gran utilidad para el procesamiento de datos, con aplicaciones con fines tanto comerciales como académicos en todas las áreas del conocimiento científico. Sin embargo, las ciencias humanas, que suelen ser más refractarias a las innovaciones en este campo, a menudo quedan desactualizadas con respecto de estas nuevas herramientas, desaprovechando los recursos tecnológicos disponibles.

En las ciencias humanas y sociales, la fuente más importante de información disponible al investigador son los textos. Un problema que tiene esta clase de fuente es que al tratarse de datos no estructurados, su procesamiento automático involucra una gran dificultad desde el punto de vista computacional. Este seminario de extensión busca introducir a los estudiantes de distintas disciplinas en el uso y el respaldo teórico de una variedad de herramientas computacionales para el procesamiento de lenguaje natural. Para ello, luego de una introducción a las nociones básicas de teoría de los lenguajes (Unidad I), necesaria para poner en perspectiva la clase de reto que plantean los textos y las limitaciones de sus posibles soluciones, se presentará sucesivamente el estado de arte de algoritmos y herramientas computacionales que se utilizan para resolver problemas lingüísticos relacionados a los niveles del léxico y la morfología (Unidad II), de la sintaxis (Unidad III) y de la semántica o interpretación de los textos (Unidad IV).

El recorrido no pretende ser exhaustivo sino dar un pantallazo general de algunos de los recursos computacionales estándar para lidiar con los problemas en cuestión. Estos problemas se trabajarán no solo desde el punto de vista teórico sino también desde el punto de vista práctico, ya que durante las clases se explorarán y correrán diversas aplicaciones computacionales en distintos entornos.


4- Objetivos

De la justificación del programa se desprenden los siguientes objetivos del curso:

  • Introducir a los estudiantes de la facultad y a la comunidad en general en el uso de herramientas computacionales para el procesamiento de información textual.
  • Demostrar las posibilidades del análisis computacional en relevamiento y análisis de datos textuales para estudios en el campo de las humanidades
  • Demostrar la utilidad de las herramientas disponibles para la exploración de corpora.
  • Comprender la base lingüística y/o computacional subyacentes a cada herramienta.
  • Brindar una introducción al mundo de la programación.
  • Ofrecer un espacio de práctica supervisada para el empleo de las diferentes herramientas.
  • Mostrar casos de uso real.
  • Presentar diferentes recursos digitales disponibles para la realización de investigaciones y trabajos que involucren el procesamiento de textos.


5- Contenidos y Bibliografía


Contenidos:


Unidad I: Nociones básicas

Jerarquía de Chomsky. Costo computacional. Tiempo lineal, polinómico y exponencial. Nociones básicas de tratabilidad y decidibilidad. Gramáticas, autómatas y lenguajes formales. Introducción a las expresiones regulares.


Unidad II: Problemas de morfología y léxico

Escritura y reconocimiento de expresiones regulares. Preprocesamiento y normalización de textos. Línea de comandos de linux: Cat, Grep, Sed, Awk, Tr, Head, Tail. Tokenización (separación de palabras). Lematización (reconocimiento de lexemas) y Stemming (reconocimiento de raíces). Concordancers.


Unidad III: Cómo se combinan las palabras

POS Tagging. Parsing (etiquetadores sintácticos). Shallow y full parsing. Dependencias vs. constituyentes. Parsing categorial. Algoritmos básicos de parsing. Herramientas de parsing: Stanford CoreNLP, OpenNLP, NLTK, Freeling.


Unidad IV: La interpretación de los textos

Semántica distribucional. Eliminación de stopwords. Clasificación de textos: Sentiment Analysis, Stance Detection, Topic Detection. Topic Modeling. Herramientas: Lenguaje R. Vista de WordNet y FrameNet.


Bibliografía por unidad


Unidad I: Nociones básicas

  • Partee, B., A. Meulen, y R. Wall (1993). Capítulo 16: “Basic Concepts”. Mathematical Methods in Linguistics. Dordrecht: Kluwer Academic Publishers. pp 433-454.
  • Moreno Sandoval, A. (2001). Apéndice 2: “Nociones de Lingüística Matemática”. Gramáticas de Unificación y rasgos. Madrid: Antonio Machado. pp. 227-256


Unidad II: Problemas de morfología y Léxico

  • Jurafsky, D. y J. Martin (2000) Capítulo 2 "Regular expressions and automata". Speech and language processing. New Jersey: Prentice-Hall, 21-56.
  • Dougherty, D., & Robbins, A. (1997). Capítulo 5 “Basic sed comands”. Sed & awk: UNIX Power Tools. California: O'Reilly.
  • Dougherty, D., & Robbins, A. (1997). Capítulo 7 “Writing scripts for awk”. Sed & awk: UNIX Power Tools. California: O'Reilly
  • Clark, E., & Araki, K. (2011). Text normalization in social media: progress, problems and applications for a pre-processing system of casual English. Procedia-Social and Behavioral Sciences, 27, 2-11.


Unidad III: Cómo se combinan las palabras

  • Manning, C. & H. Schütze. (1999). Capítulo 12 “Probabilistic Parsing”. Foundations of Statistical Natural Language Processing. Cambridge/Massachusetts: The MIT Press. Pp. 407-460.
  • Russell S. y Norvig P. (1995). Capítulo 23 “Practical Natural Language Processing”. Artificial Intelligence: a modern approach. New Jersey: Prentice Hall.


Unidad IV: La interpretación de los textos

  • Bruni, E., Tran, N. K., & Baroni, M. (2014). Multimodal Distributional Semantics. Journal of Artificial Intelligence Research, 49(2014), 1-47. Disponible en https://www.jair.org/media/4135/live-4135-7609-jair.pdf.
  • Baker, C. F., & Fellbaum, C. (2009). “WordNet and FrameNet as complementary resources for annotation”. En Proceedings of the Third Linguistic Annotation Workshop (pp. 125-129). Association for Computational Linguistics. Disponible en http://www.aclweb.org/old_anthology/W/W09/W09-30.pdf#page=139.
  • Gildea, D., & Jurafsky, D. (2002). Automatic labeling of semantic roles. Computational linguistics, 28(3), 245-288. Disponible en http://www.mitpressjournals.org/doi/pdfplus/10.1162/089120102760275983.


Bibliografía General


  • Baker, C. F., & Fellbaum, C. (2009, August). WordNet and FrameNet as complementary resources for annotation. In Proceedings of the Third Linguistic Annotation Workshop (pp. 125-129). Association for Computational Linguistics.
  • Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. California: O'Reilly Media.
  • Bolshakov, I. y A. Gelbukh (2004). Computational Linguistics: model, resources, applications. México: UNAM.
  • Carnie, Andrew (2010). Capítulo 9 “Dependency and Constituency”. Constituent Structure. Oxford/New York: Oxford University Press, pp. 168-188.
  • Clark, A. (2003, March). Pre-processing very noisy text. In Proc. of Workshop on Shallow Processing of Large Corpora (pp. 12-22).
  • Clark, E., & Araki, K. (2011). Text normalization in social media: progress, problems and applications for a pre-processing system of casual English. Procedia-Social and Behavioral Sciences, 27, 2-11.
  • Davis, M., R. Sigal & E. Weyuker. (1994). Computability, Complexity and Languages. San Diego: Academic Press.
  • Debusmann, R. (2000). An introduction to dependency grammar. Hausarbeit fur das Hauptseminar Dependenzgrammatik SoSe, 99, 1-16. Disponible en http://www.ps.uni-saarland.de/~rade/papers/dg.pdf.
  • Dougherty, D., & Robbins, A. (1997). sed & awk: UNIX Power Tools. California. O'Reilly
  • Downey, A. (2012). Think Python. Massachusetts: Green Tea Press.
  • Feldman, R., & Sanger, J. (2007). The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge university press. Cap. I “Introduction to Text Mining”; cap V “Clustering”; cap. VII “Probabilistic Models for Information Extraction”.
  • Fernández Montraveta, A. & G. Vázquez, G. (2010). “La construcción del wordnet 3.0 en espanol”. En La lexicografía en su dimensión teórica (pp. 201-220). Disponible en http://s3.amazonaws.com/academia.edu.documents/5944423/creacion_wordnet_malaga.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1495819135&Signature=fKkAaRA8wQftr3t0WE4QWm0vNz0%3D&response-content-disposition=inline%3B%20filename%3DLa_construccion_del_WordNet_3.0_en_espan.pdf.
  • Fitzgerald, M. (2012). Introducing Regular Expressions. California: O’Reilly.
  • Gilly, D. (1998). UNIX in a Nutshell: System V Edition.
  • Grune, D. y C. Jacobs (2008). Parsing Techniques. A practical guide. Amsterdam: Springer.
  • Hopcroft, John, Rajeev Motwani & Jeffrey D. Ullman (2001). Introduction to Automata Theory, Languages and Computation. Massachusetts: Addison-Wesley.
  • Jiang, J. J., & Conrath, D. W. (1997). Semantic similarity based on corpus statistics and lexical taxonomy. Disponible en https://arxiv.org/pdf/cmp-lg/9709008.
  • Kiritchenko, S., Zhu, X., & Mohammad, S. M. (2014). Sentiment analysis of short informal texts. Journal of Artificial Intelligence Research, 50, 723-762.
  • Liang, P. (2013). Lambda dependency-based compositional semantics. Disponible en https://arxiv.org/pdf/1309.4408.pdf.
  • Liang, P., Jordan, M. I., & Klein, D. (2011). “Learning dependency-based compositional semantics”. En Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 (pp. 590-599). Association for Computational Linguistics. Disponible en https://arxiv.org/pdf/1109.6841.
  • Manning, C. & H. Shütze (1999). Foundations of Statistical Natural Language Processing. Cambridge/Massachusetts: The MIT Press.
  • Mohammad, S. M., Kiritchenko, S., & Zhu, X. (2013). NRC-Canada: Building the state-of-the-art in sentiment analysis of tweets. arXiv preprint arXiv:1308.6242.
  • Moreno Sandoval, A. (2001). Gramáticas de Unificación y rasgos. Madrid: A. Machado Libros, pp. 227-256.
  • Partee, B., A. Meulen, y R. Wall (1993). Mathematical Methods in Linguistics. Dordrecht: Kluwer Academic Publishers.
  • Peregrín Otero, Carlos (1970). Introducción a la lingüística transformacional. Madrid: Siglo XXI. 1973.
  • Petruck, Miriam RL. 1996. “Frame semantics”. Handbook of pragmatics. 1–13.
  • Sag, Ivan, Thomas Wasow y Emily Bender (1999), Capítulo 2 “Some Simple Theories of Grammar”. Syntactic Theory: A Formal Introduction. Stanford: CSLI, pp. 21-48.
  • Steyvers, M., & Griffiths, T. (2007). Probabilistic topic models. Handbook of latent semantic analysis, 427(7), 424-440. Disponible en http://173.236.226.255/tom/papers/SteyversGriffiths.pdf.
  • Tan, Pang-Ning, Michael Steinbach y Vipin Kumar (2006). Introduction to Data Mining. Boston: Pearson Education.
  • Taulé, M., Martí, M. A., Bies, A., Nofre, M., Garí, A., Song, Z., ... & Ellis, J. (2015, June). Spanish Treebank Annotation of Informal Non-standard Web Text. In International Conference on Web Engineering (pp. 15-27). Springer International Publishing. Disponible en https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/nlpit2015-spanish-treebank-annotation.pdf.
  • van Vugt, S. (2015). Red Hat RHCSA/RHCE 7 Cert Guide: Red Hat Enterprise Linux 7 (EX200 and EX300). Pearson IT Certification.
  • Wall, R. (1972). Introduction to mathematical linguistics. New Jersey: Prentice Hall.
  • Watt, A. (2005). Beginning Regular Expressions. Indianapolis: Wiley Publishing.
  • Zhu, X., Kiritchenko, S., & Mohammad, S. M. (2014, August). Nrc-canada-2014: Recent improvements in the sentiment analysis of tweets. In Proceedings of the 8th international workshop on semantic evaluation (SemEval 2014) (pp. 443-447).


6. Destinatarios

Los destinatarios del presente seminario son alumnos y graduados de carreras humanísticas y afines con interés en el manejo de fuentes de datos no estructuradas, particularmente, textos.


7. Carga horaria

El seminario cuenta con una carga horaria total de 32 horas repartidas en 8 clases de 4 hs cada una a razón de una clase por semana.


8. Condiciones de cursada y requisitos de aprobación.

La cursada del presente seminario requiere llevar computadora portátil. Es requisito para la aprobación cumplir con una asistencia mínima al 75% de las clases.