Estadística y probabilidad: aplicaciones en la lingüística
Estadística y probabilidad: aplicaciones en la lingüística
1- Titular y colaboradores:
Titular
Federico Alvarez
Colaboradores
Santiago Gualchi
Martín Kondratzky
2- Fundamentación y descripción del programa
El uso de los métodos cuantitativos en lingüística no es en lo absoluto una novedad. Sus antecedentes se remontan al menos a las famosas leyes de Zipf (Zipf 1949, Mandelbrot 1954) y los trabajos de la Teoría de la Información (Shannon 1948, entre otros). Sin embargo, es indudable que la utilización de estos métodos ha recibido un considerable impulso recién en los últimos años y ha penetrado sobre todo en la Lingüística Computacional y el Procesamiento del Lenguaje Natural. Su incorporación al quehacer de los lingüistas de corte más teórico (tanto formales como funcionales), por su parte, se mantiene todavía bastante restringida. Una demostración cabal del grado de abandono generalizado por parte de la lingüística a esta clase de métodos es que Partee et al (1983), que se pretende como una introducción a conceptos de matemática para lingüistas, no posee ningún capítulo destinado a la introducción de conceptos de probabilidad y estadística.
Esto trae, como consecuencia, que el desarrollo de teorías probabilísticas sobre el lenguaje y de modelos estadísticos de recolección y análisis de datos se halle atrasado en relación con la ubicuidad de los abordajes cuantitativos en la mayoría de las ciencias. A nivel global, las perspectivas teóricas sobre el lenguaje, en todo el espectro abarcado desde el funcionalismo hasta la lingüística formal, consisten mayormente en la postulación de principios cualitativos sobre los cuales se deducen las observaciones de los investigadores. En general, el estudio cuantitativo de las lenguas suele ser patrimonio de las ciencias de la computación (Russell y Norvig 1995, Jurafsky y Martin 2009), que hacen foco en el procesamiento de información lingüística para diferentes fines sin tener en cuenta las teorías sobre el lenguaje.
En términos metodológicos, los lingüistas a nivel general y en especial los formados en nuestra Casa de Estudios no poseen formación sobre selección de muestras para el trabajo de campo, ni sobre estadística descriptiva para caracterizar las tendencias propias de las muestras. Asimismo, en el plano experimental, más allá de la formación proporcionada en las materias del área de psico y neurolingüística de la carrera de Letras, los estudiantes y egresados no reciben ninguna clase de instrucción sobre la estructura formal de un experimento, lo cual redunda en una imposibilidad para comprobar hipótesis teóricas propias a través del análisis de datos empíricos.
Este curso de extensión se propone, por lo tanto, como un espacio desde el cual compartir herramientas de aplicación de métodos cuantitativos en lingüística, corriente que conforma un área de vacancia en la formación proporcionada en nuestra facultad.
La secuencia propuesta en este programa supone el abordaje de la temática de acuerdo con un nivel de abstracción creciente: a partir de la identificación de áreas donde la lingüística ha hecho empleo exitoso de técnicas cuantitativas, exponemos la metodología común que abarca a todas ellas. Dicha metodología es, entonces, analizada en cada uno de sus pasos: el diseño de una investigación y la identificación de variables de interés, la recolección y descripción de una muestra y la detección de posibles inferencias sobre una población a partir de una muestra acotada. Todo esto deriva en el análisis del sustento formal subyacente a los modelos probabilísticos. Finalmente, regresamos a las áreas de partida para resaltar cómo las peculiaridades de cada objeto de estudio se instancian de manera diferente en cada caso. A lo largo de todo el programa, se acompañan los contenidos teóricos con su correspondiente aplicación computacional, a fines de permitir el traslado del desarrollo conceptual a la materialidad de la práctica.
3- Objetivos
De la justificación del programa se desprenden los siguientes objetivos del curso:
4- Contenidos y Bibliografía
Contenidos:
Unidad 1: Introducción a la estadística
Introducción a la estadística. Campos de aplicación en el estudio del lenguaje. Pasos de la investigación cuantitativa. Planteo de hipótesis cuantitativas. Tipos de variables. Operacionalización de variables.
Introducción a la programación. Introducción a la sintaxis y semántica de Python. Entornos de programación. Librerías.
Unidad 2: Exploración de datos
Exploración de datos. Visualizaciones: gráficos de barras, histogramas, diagrama de dispersión, diagrama de caja, tablas de frecuencia. Otras visualizaciones.
Unidad 3: Estadística descriptiva
Ámbito de la estadística descriptiva. Medidas de tendencia central: media, mediana, moda. Medidas de dispersión: rango, rango intercuartílico, varianza, desvío estándar. Medidas de correlación entre dos variables: r de Pearson, rho de Spearman, tau de Kendall, coeficiente phi.
Unidad 4: Estadística inferencial.
Testeo de hipótesis. Características del marco de testeo de significancia de la hipótesis nula (NHST). Orígenes de NHST: test de significancia de Fisher, prueba de aceptación o rechazo de Neyman-Pearson. Problemas de NHST. Enfoques alternativos. Ejemplos de testeo de hipótesis: chi-cuadrado, ANOVA, regresión lineal. Test paramétricos vs. no-paramétricos.
Unidad 5: Teoría de la Probabilidad.
Probabilidad. Sigma-álgebra. Espacio de muestra. Probabilidad conjunta. Probabilidad condicional. Teorema de Bayes. Conteo. Combinaciones, permutaciones y variaciones. Variables aleatorias. Distribuciones de probabilidad.
Unidad 6: Áreas de Aplicación de los métodos cuantitativos
Estadística en NLP: parsers probabilísticos (bllip parser, malt parser, Spacy), Estadística en Psicolingüística, Estadística en Lingüística de corpus, Estadística en Teoría lingüística
5- Bibliografía por unidad
Unidad 1:
Unidad 2:
Unidad 3:
Unidad 4:
Unidad 5:
Unidad 6:
6- Bibliografía General
7. Destinatarios
Los destinatarios del presente seminario son alumnos y graduados de carreras humanísticas y afines con interés en la comprensión o realización de experimentos lingüísticos que requieran el uso de la estadística y aquellos interesados en el manejo de fuentes de datos no estructuradas, particularmente, textos.
8. Carga horaria
El seminario cuenta con una carga horaria total de 32 horas repartidas en 8 clases de 4hs cada una a razón de una clase por semana.
9. Condiciones de cursada y requisitos de aprobación.
Para la cursada del presente seminario se recomienda llevar computadora portátil. Es requisito para la aprobación cumplir con una asistencia mínima al 75% de las clases y aprobar una serie de trabajos prácticos a especificar durante la cursada.
10. Resumen del curso para difusión
El curso propone un abordaje teórico-práctico al conocimiento estadístico dirigido de manera específica al estudio del lenguaje. Pretende complementar la oferta disponible sobre métodos cuantitativos con la exposición crítica de los fundamentos metodológicos de los procedimientos más extendidos, y trazar vínculos con las prácticas y los marcos teórico-metodológicos de distintas áreas del conocimiento lingüístico: lingüística computacional, psico- y neurolingüística, lingüística de corpus.