Encontrar espacios de menor dimensionalidad que mejoren una tarea de PLN, y después aplicar esos espacios a la tarea de clustering del práctico anterior. Aplicar por lo menos un método supervisado (con por lo menos dos clases distintas) y uno no supervisado.
Fecha de entrega: 6 de octubre
Material a entregar (digital, no papel): Una página web (tipo github) con:
Distinguimos dos procedimientos para selección de características: supervisado y no supervisado. Si quieren un poco más de background, lean esta brevísima discusión sobre aprendizaje supervisado vs. no supervisado.
Feature selection supervisado
El procedimiento de feature selection supervisado requiere tener clases, que en este caso vamos a usar como tarea de pretexto. Aunque estas clases no son nuestro objetivo de aprendizaje, las vamos a usar para poder aplicar técnicas de selección de características supervisadas.
En aprendizaje automático supervisado (y por lo tanto también en selección de características supervisada), las clases son el objetivo de aprendizaje de un clasificador, lo que queremos que el clasificador prediga. El clasificador aprende a partir de ejemplos de entrenamiento que han sido asociados a la clase que queremos que el clasificador prediga automáticamente. Entonces, para nuevos ejemplos, el clasificador los va a asociar a una de las clases objetivo según lo que aprendió de los ejemplos de entrenamiento. Por ejemplo, algunas clases objetivos son "spam" o "no spam" para los mails; "calor", "frío", "lluvia" para la predicción meteorológica. Algunos ejemplos de clases en lenguaje natural serían la categoría morfosintáctica (o PoS, Part of Speech), donde el clasificador trata de determinar si una palabra es "nombre", "adjetivo", "adverbio", "verbo", o el sentido (Word Sense Disambiguation), donde un clasificador trata de determinar, por ejemplo, si una ocurrencia de la palabra "gato" en una oración es un caso del sentido 30-02121620-n , 30-02983507-n , 30-10022759-n , 30-02122725-n o 30-02122298-n . Estos sentidos están listados en el recurso EuroWordNet, y varios analizadores (FreeLing, NLTK) proveen una forma de asignar automáticamente a cada palabra de una oración su sentido de WordNet más probable en esa oracióón.
En este caso nosotros no queremos aprender un clasificador que determine ni categoría sintáctica ni el sentido de las palabras, pero vamos a usar estas clases para eliminar características aplicando técnicas supervisadas de selección de características.
Las técnicas de las que disponen son, por ejemplo:
Mi propuesta de trabajo es como sigue:
Feature selection no supervisado
Después de haber reducido la dimensionalidad con cada una de estas técnicas (por lo menos una supervisada y una no supervisada), obtener clusters de palabras con la misma técnica que en el práctico de clustering, pero ahora con estos espacios reducidos (por lo menos dos supervisados y uno no supervisado).