Encontrar grupos de palabras que puedan ser usados como clases de equivalencia, al estilo de los Brown Clusters.
Fecha de entrega: 27 de septiembre
Material a entregar (digital, no papel): Una página web (tipo github) con:
- descripción del preproceso aplicado al corpus
- descripción de la herramienta de clustering utilizada
- listado de los parámetros usados en la(s) solucion(es) de clustering que se presentan, y lo que se esperaba a priori de cada configuración de parámetros
- discusión de la(s) solucion(es) de clustering elegidas: descripción global de la solución (número de clusters, cantidad de elementos por cluster, distribución de características, algunas métricas) y descripción cualitativa de algunos clusters
- Obtener un corpus de la lengua española (por ejemplo, alguno del SBWCE de Cristian Cardellino, o, a falta de mejores opciones, se pueden usar los que hay en mi directorio de corpus)
- Preprocesarlo para normalizar las palabras, con NLTK o Freeling. Se pueden realizar análisis morfosintáctico o sintáctico, de forma de enriquecer la información asociada a palabras, por ejemplo, con triplas de dependencias.
- Vectorizar las palabras (quizás usando el vectorizador de scikitlearn o una heurística propia). Al momento de vectorizar las palabras se pueden usar diferentes criterios para reducción de dimensionalidad (por ejemplo, umbral de frecuencia), y también LSA o word embeddings neuronales.
- Obtener clusters de palabras.
- Analizar los clusters, iterar a 3.
- Si se realizan los pasos básicos sin ninguna omisión, 8
- Si se realizan los pasos básicos con algunas omisiones, entre 6 y 7
- Si se usan triplas de dependencias, 9
- Si se usan embeddings (neuronales o LSA), 9
- Si se usan tripas y embeddings, 10