Clustering

1. En un corpus de texto general en castellano, encontrar grupos de palabras que puedan ser usados como clases de equivalencia.

Fecha de entrega:

Material a entregar (digital, no papel): Una página web con una notebook ejecutable (tipo github o colab) con:

descripción del preproceso aplicado al corpus
descripción de la herramienta de clustering utilizada
listado de los parámetros usados en la(s) solucion(es) de clustering que se presentan, y lo que se esperaba a priori de cada configuración de parámetros
discusión de la(s) solucion(es) de clustering elegidas: descripción global de la solución (número de clusters, cantidad de elementos por cluster, distribución de características, algunas métricas) y descripción cualitativa de algunos clusters

Obtener un corpus de la lengua española (por ejemplo, alguno del SBWCE de Cristian Cardellino, o, a falta de mejores opciones, se pueden usar los que hay en mi directorio de corpus).
Preprocesarlo para normalizar las palabras, con SpaCy, NLTK o Freeling. Se pueden realizar análisis morfosintáctico o sintáctico, de forma de enriquecer la información asociada a palabras, por ejemplo, con triplas de dependencias.
Vectorizar las palabras (para el objetivo 1) o las entidades nombradas (para el objetivo 2) (quizás usando el vectorizador de scikitlearn o una heurística propia). Aplicar reducción de dimensionalidad mediante umbral de frecuencia.
Aplicar embeddings: LSA o word embeddings neuronales.
Obtener clusters de palabras.
Analizar los clusters, iterar a 3.

Page updated

Report abuse