Programa

Estadística y probabilidad

Estadística y probabilidad: aplicaciones en la lingüística

1- Titular y colaboradores:

Titular

Federico Alvarez

Colaboradores

Santiago Gualchi

Martín Kondratzky

2- Fundamentación y descripción del programa

El uso de los métodos cuantitativos en lingüística no es en lo absoluto una novedad. Sus antecedentes se remontan al menos a las famosas leyes de Zipf (Zipf 1949, Mandelbrot 1954) y los trabajos de la Teoría de la Información (Shannon 1948, entre otros). Sin embargo, es indudable que la utilización de estos métodos ha recibido un considerable impulso recién en los últimos años y ha penetrado sobre todo en la Lingüística Computacional y el Procesamiento del Lenguaje Natural. Su incorporación al quehacer de los lingüistas de corte más teórico (tanto formales como funcionales), por su parte, se mantiene todavía bastante restringida. Una demostración cabal del grado de abandono generalizado por parte de la lingüística a esta clase de métodos es que Partee et al (1983), que se pretende como una introducción a conceptos de matemática para lingüistas, no posee ningún capítulo destinado a la introducción de conceptos de probabilidad y estadística.

Esto trae, como consecuencia, que el desarrollo de teorías probabilísticas sobre el lenguaje y de modelos estadísticos de recolección y análisis de datos se halle atrasado en relación con la ubicuidad de los abordajes cuantitativos en la mayoría de las ciencias. A nivel global, las perspectivas teóricas sobre el lenguaje, en todo el espectro abarcado desde el funcionalismo hasta la lingüística formal, consisten mayormente en la postulación de principios cualitativos sobre los cuales se deducen las observaciones de los investigadores. En general, el estudio cuantitativo de las lenguas suele ser patrimonio de las ciencias de la computación (Russell y Norvig 1995, Jurafsky y Martin 2009), que hacen foco en el procesamiento de información lingüística para diferentes fines sin tener en cuenta las teorías sobre el lenguaje.

En términos metodológicos, los lingüistas a nivel general y en especial los formados en nuestra Casa de Estudios no poseen formación sobre selección de muestras para el trabajo de campo, ni sobre estadística descriptiva para caracterizar las tendencias propias de las muestras. Asimismo, en el plano experimental, más allá de la formación proporcionada en las materias del área de psico y neurolingüística de la carrera de Letras, los estudiantes y egresados no reciben ninguna clase de instrucción sobre la estructura formal de un experimento, lo cual redunda en una imposibilidad para comprobar hipótesis teóricas propias a través del análisis de datos empíricos.

Este curso de extensión se propone, por lo tanto, como un espacio desde el cual compartir herramientas de aplicación de métodos cuantitativos en lingüística, corriente que conforma un área de vacancia en la formación proporcionada en nuestra facultad.

La secuencia propuesta en este programa supone el abordaje de la temática de acuerdo con un nivel de abstracción creciente: a partir de la identificación de áreas donde la lingüística ha hecho empleo exitoso de técnicas cuantitativas, exponemos la metodología común que abarca a todas ellas. Dicha metodología es, entonces, analizada en cada uno de sus pasos: el diseño de una investigación y la identificación de variables de interés, la recolección y descripción de una muestra y la detección de posibles inferencias sobre una población a partir de una muestra acotada. Todo esto deriva en el análisis del sustento formal subyacente a los modelos probabilísticos. Finalmente, regresamos a las áreas de partida para resaltar cómo las peculiaridades de cada objeto de estudio se instancian de manera diferente en cada caso. A lo largo de todo el programa, se acompañan los contenidos teóricos con su correspondiente aplicación computacional, a fines de permitir el traslado del desarrollo conceptual a la materialidad de la práctica.

3- Objetivos

De la justificación del programa se desprenden los siguientes objetivos del curso:

Brindar una introducción teórica a conceptos de probabilidad y estadística orientada específicamente al estudio del lenguaje.
Considerar de manera crítica las virtudes y los defectos de la metodología adoptada en un abordaje cuantitativo.
Proporcionar herramientas para la implementación práctica de los contenidos teóricos.
Brindar una introducción al mundo de la programación en Python.
Ofrecer un espacio de práctica supervisada para el empleo de las diferentes herramientas.
Mostrar casos de uso real.
Presentar diferentes recursos disponibles para la realización de investigaciones y trabajos que involucren el modelado cuantitativo y la toma de muestras.

4- Contenidos y Bibliografía

Contenidos:

Unidad 1: Introducción a la estadística

Introducción a la estadística. Campos de aplicación en el estudio del lenguaje. Pasos de la investigación cuantitativa. Planteo de hipótesis cuantitativas. Tipos de variables. Operacionalización de variables.

Introducción a la programación. Introducción a la sintaxis y semántica de Python. Entornos de programación. Librerías.

Unidad 2: Exploración de datos

Exploración de datos. Visualizaciones: gráficos de barras, histogramas, diagrama de dispersión, diagrama de caja, tablas de frecuencia. Otras visualizaciones.

Unidad 3: Estadística descriptiva

Ámbito de la estadística descriptiva. Medidas de tendencia central: media, mediana, moda. Medidas de dispersión: rango, rango intercuartílico, varianza, desvío estándar. Medidas de correlación entre dos variables: r de Pearson, rho de Spearman, tau de Kendall, coeficiente phi.

Unidad 4: Estadística inferencial.

Testeo de hipótesis. Características del marco de testeo de significancia de la hipótesis nula (NHST). Orígenes de NHST: test de significancia de Fisher, prueba de aceptación o rechazo de Neyman-Pearson. Problemas de NHST. Enfoques alternativos. Ejemplos de testeo de hipótesis: chi-cuadrado, ANOVA, regresión lineal. Test paramétricos vs. no-paramétricos.

Unidad 5: Teoría de la Probabilidad.

Probabilidad. Sigma-álgebra. Espacio de muestra. Probabilidad conjunta. Probabilidad condicional. Teorema de Bayes. Conteo. Combinaciones, permutaciones y variaciones. Variables aleatorias. Distribuciones de probabilidad.

Unidad 6: Áreas de Aplicación de los métodos cuantitativos

Estadística en NLP: parsers probabilísticos (bllip parser, malt parser, Spacy), Estadística en Psicolingüística, Estadística en Lingüística de corpus, Estadística en Teoría lingüística

5- Bibliografía por unidad

Unidad 1:

Abney, Steve. (2011). “Data-intensive experimental linguistics”. Linguistics Issues in Language Technology, 6(2), 20, pp. 221-232.
Arunachalam, Sudha. (2013). “Experimental methods for linguists”. Language and Linguistics Compass, 7(4), pp. 221-232.
Gries, Stefan (2013). “Some fundamentals of empirical research”. Statistics for linguistics with R. Berlin: Mouton de Gruyter, pp. 1-55.

Unidad 2:

Gries, Stefan (2013). Capítulo 3: “Descriptive statistics”. En Statistics for linguistics with R. Berlin: Walter de Gruyter. Pp. 102-156.

Unidad 3:

Gries, Stefan (2013). Capítulo 3: “Descriptive statistics”. En Statistics for linguistics with R. Berlin: Walter de Gruyter. Pp. 102-156
Johnson, Daniel Ezra. (2013). “Descriptive statistics”. En R. Podesva y D. Sharma (Eds.), Research methods in linguistics. Cambridge: Cambridge University Press, pp. 288-315.

Unidad 4:

Greenland, Sander, Stephen J. Senn, Kenneth J. Rothman, John B. Carlin, Charles L Poole, Steven N. Goodman y Douglas G. Altman (2016). “Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations”. European Journal of Epidemiology, 31, 337-350.
Johnson, Keith (2007). “Patterns and tests”. Quantitative Methods in Linguistics. Malden: Blackwell Publishing, pp. 34-85.
Perez Gonzalez, José D. (2015). “Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing”. Frontiers in Psychology, 6.
Szucs, Denes y John P. A Ioannidis. (2017). “When Null Hypothesis Significance Testing is Unsuitable for Research: A Reassessment”. Frontiers in Human Neuroscience, 11.

Unidad 5:

Bod, Rens (2003). Capítulo 2: “Introduction to Elementary Probability Theory and Formal Stochastic Language Theory”. En: Bod, Hay, Jannedy (eds). Probabilistic linguistics. Cambridge, Massachusetts: The MIT Press. 11-37.
Casella, George y Roger L. Berger (2002). Statistical inference: Vol. 2. Pacific Grove, CA: Duxbury.
Cohen, Shay (2016). Capítulo 1: “Bayesian Analysis in Natural Language Processing” Synthesis Lectures on Human Language, 9(2), 1-274.
Manning, Christopher y Hinrich Schütze. (1999). Capítulo 2 “Mathematical foundations”. Foundations of Statistical Natural Language Processing. Cambridge/Massachusetts: The MIT Press. Pp. 39-80.

Unidad 6:

Johnson, Keith. (2008). Capítulo 4: “Psycholinguistics”. Quantitative Methods in Linguistics. Malden: Blackwell Publishing. Pp. 104-143.
Manning, Christopher y Hinrich Schütze. (1999). Capítulo 12: “Probabilistic Parsing”. Foundations of Statistical Natural Language Processing. Cambridge/Massachusetts: The MIT Press. Pp. 407-460.
Schütze, Carson T. y Jon Sprouse. (2013). Capítulo: “Judgment Data”. En: Podesva, Robert. y Devyani Sharma (eds.). Research methods in linguistics. Cambridge: Cambridge University Press. Pp. 27-50.

6- Bibliografía General

Abney, Steven (2011). Data-intensive experimental linguistics. Linguistics Issues in Language Technology, 6(2), 20, 221-232.
Chater, Nick y Christopher Manning, (2006). “Probabilistic models of language processing and acquisition”. En TRENDS in Cognitive Sciences, vol.10 nº7, pp.335-344.
Clark, Alexander, Chris Fox y Shalom Lappin (2010). The Handbook of Computational Linguistics and Natural Language Processing. West Sussex: Wiley-Blackwell.
Downey, Allen B (2012). Think Python. Massachusetts: Green Tea Press.
Feldman, Ronen y James Sanger (2007). The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge university press.
Greenland, Sander, Stephen J. Senn, Kenneth J. Rothman, John B. Carlin, Charles L Poole, Steven N. Goodman y Douglas G. Altman (2016). “Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations”. European Journal of Epidemiology, 31, 337-350.
Gries, Stefan. (2013). Statistic for linguists with R. Berlin: de Gruyter Mouton.
Johnson, Keith. (2008). Quantitative Methods in Linguistics. Malden: Blackwell Publishing.
Jurafsky, Daniel y Christopher Martin (2000). Speech and Language Processing. New Jersey: Prentice-Hall.
Loper, Edward. Año desconocido. NLTK Tutorial: Probabilistic Parsing. Disponible en https://lost-contact.mit.edu/afs/cs.pitt.edu/projects/nltk/docs/tutorial/pcfg/nochunks.html.
Mandelbrot, Benoit (1954). Structure formelle des textes et communication. Word 10: 1-27.
Manning, Christopher y Hinrich Schütze. Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: The MIT Press.
Moreno Sandoval, Antonio (1998). Introducción a la lingüística computacional. Introducción a los modelos simbólicos, estadísticos y biológicos. Madrid: Síntesis.
Partee, Barbara, Alice ter Meulen y Robert Wall (1993). Mathematical Methods in Linguistics. Dordrecht: Kluwer Academic Publishers.
Perez Gonzalez, José D. (2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. Frontiers in Psychology, 6.
Podesva, Robert J. y Devyani Sharma (eds.) (2013). Research methods in linguistics. Cambridge: Cambridge University Press.
Roark, Brian & Richard Sproat. (2007). Computational Approaches to Morphology and Syntax. Oxford: Oxford University Press.
Russell, Stuart y Peter Norvig. (1995). Artificial Intelligence. A modern approach. New Jersey: Prentice-Hall.
Shannon, Claude E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal 27: 379-423, 623-656.
Steyvers, Mark & Tom Griffiths. (2007). “Probabilistic topic models”. Handbook of latent semantic analysis, 427(7), 424-440. Disponible en http://173.236.226.255/tom/papers/SteyversGriffiths.pdf.
Szucs, Denes y John P. A. Ioannidis (2017). When Null Hypothesis Significance Testing is Unsuitable for Research: A Reassessment. Frontiers in Human Neuroscience, 11.
Tan, Pang-Ning, Michael Steinbach y Vipin Kumar. (2006). Introduction to Data Mining. Boston: Pearson Education.
Zipf, George Kingsley. (1949). Human Behavior and the Principle of Least Effort. Cambridge, Massachusetts: Addison-Wesley.

7. Destinatarios

Los destinatarios del presente seminario son alumnos y graduados de carreras humanísticas y afines con interés en la comprensión o realización de experimentos lingüísticos que requieran el uso de la estadística y aquellos interesados en el manejo de fuentes de datos no estructuradas, particularmente, textos.

8. Carga horaria

El seminario cuenta con una carga horaria total de 32 horas repartidas en 8 clases de 4hs cada una a razón de una clase por semana.

9. Condiciones de cursada y requisitos de aprobación.

Para la cursada del presente seminario se recomienda llevar computadora portátil. Es requisito para la aprobación cumplir con una asistencia mínima al 75% de las clases y aprobar una serie de trabajos prácticos a especificar durante la cursada.

10. Resumen del curso para difusión

El curso propone un abordaje teórico-práctico al conocimiento estadístico dirigido de manera específica al estudio del lenguaje. Pretende complementar la oferta disponible sobre métodos cuantitativos con la exposición crítica de los fundamentos metodológicos de los procedimientos más extendidos, y trazar vínculos con las prácticas y los marcos teórico-metodológicos de distintas áreas del conocimiento lingüístico: lingüística computacional, psico- y neurolingüística, lingüística de corpus.

Google Sites

Report abuse