práctico de feature selection

Objetivo

Encontrar espacios de menor dimensionalidad que mejoren una tarea de PLN, y después aplicar esos espacios a la tarea de clustering del práctico anterior. Aplicar por lo menos un método supervisado (con por lo menos dos clases distintas) y uno no supervisado.

Entregable

Fecha de entrega: 6 de octubre

Material a entregar (digital, no papel): Una página web (tipo github) con:

descripción del sampleo del corpus anotado
descripción del corpus no anotado (idealmente, el corpus usado para clustering, y pueden hacer cut&paste de lo que escribieron para clustering)
brevísima descripción de las librerías utilizadas (puede ser traducción de la documentación de las librerías, pero sólo la parte relevante)
descripción de la técnica supervisada de feature selection
descripción de la técnica no supervisada de feature selection
discusión de cómo los nuevos espacios afectan a las soluciones de clustering elegidas, en comparación con el espacio anterior. Discusión cualitativa.

Procedimiento

Distinguimos dos procedimientos para selección de características: supervisado y no supervisado. Si quieren un poco más de background, lean esta brevísima discusión sobre aprendizaje supervisado vs. no supervisado.

Feature selection supervisado

El procedimiento de feature selection supervisado requiere tener clases, que en este caso vamos a usar como tarea de pretexto. Aunque estas clases no son nuestro objetivo de aprendizaje, las vamos a usar para poder aplicar técnicas de selección de características supervisadas.

En aprendizaje automático supervisado (y por lo tanto también en selección de características supervisada), las clases son el objetivo de aprendizaje de un clasificador, lo que queremos que el clasificador prediga. El clasificador aprende a partir de ejemplos de entrenamiento que han sido asociados a la clase que queremos que el clasificador prediga automáticamente. Entonces, para nuevos ejemplos, el clasificador los va a asociar a una de las clases objetivo según lo que aprendió de los ejemplos de entrenamiento. Por ejemplo, algunas clases objetivos son "spam" o "no spam" para los mails; "calor", "frío", "lluvia" para la predicción meteorológica. Algunos ejemplos de clases en lenguaje natural serían la categoría morfosintáctica (o PoS, Part of Speech), donde el clasificador trata de determinar si una palabra es "nombre", "adjetivo", "adverbio", "verbo", o el sentido (Word Sense Disambiguation), donde un clasificador trata de determinar, por ejemplo, si una ocurrencia de la palabra "gato" en una oración es un caso del sentido 30-02121620-n , 30-02983507-n , 30-10022759-n , 30-02122725-n o 30-02122298-n . Estos sentidos están listados en el recurso EuroWordNet, y varios analizadores (FreeLing, NLTK) proveen una forma de asignar automáticamente a cada palabra de una oración su sentido de WordNet más probable en esa oracióón.

En este caso nosotros no queremos aprender un clasificador que determine ni categoría sintáctica ni el sentido de las palabras, pero vamos a usar estas clases para eliminar características aplicando técnicas supervisadas de selección de características.

Las técnicas de las que disponen son, por ejemplo:

Univariate Feature Selection (scikit-learn), donde el estimator es la relación entre la feature y la clase
Evaluación de subconjuntos de atributos (weka) con respecto a la clase
Recursive Feature Elimination (scikit-learn)
Wrapper sobre un clasificador (scikit-learn), donde se aprende un clasificador para que éste indique cuáles son las características en las que más fuertemente se basa para determinar la clase.
También pueden usar el wrapper de Weka, que evalúa subconjuntos de características.

Mi propuesta de trabajo es como sigue:

Usar como clases de pretexto una o ambas de las siguientes: las categorías morfosintácticas por un lado y los sentidos de las palabras por otro.
Obtener un corpus donde las palabras estén asociadas a las clases de pretexto. Este corpus se puede obtener o bien analizando automáticamente un corpus cualquiera (con Freeling, por ejemplo, que provee tanto análisis de categorías morfosintácticas como de sentidos), o bien usando uno que ya esté analizado, como por ejemplo el Wikicorpus del español (link directo). De este último pueden obtener una muestra aleatoria, para no trabajar con un corpus tan grande.
Aplicar un método de selección de features supervisado usando como clase de pretexto o bien los sentidos, o bien las PoS.

Feature selection no supervisado

Usar el mismo corpus usado para clustering, con el mismo preproceso, para aplicar una técnica de selección de features no supervisada, como por ejemplo:
1. PCA (scikit-learn)
2. word embeddings (gensim)

Después de haber reducido la dimensionalidad con cada una de estas técnicas (por lo menos una supervisada y una no supervisada), obtener clusters de palabras con la misma técnica que en el práctico de clustering, pero ahora con estos espacios reducidos (por lo menos dos supervisados y uno no supervisado).

Criterios de corrección

Si se realizan los pasos básicos sin ninguna omisión, 8
Si se realizan los pasos básicos con algunas omisiones, entre 6 y 7
Si se implementa una heurística de feature selection propia, 9
Si se usan embeddings (neuronales o LSA), 9
Si se aplican los dos puntos anteriores, 10

Google Sites

Report abuse