En este curso presentamos principalmente técnicas no supervisadas de aprendizaje automático. Pero cuál es la diferencia entre técnicas supervisadas y no supervisadas?
La diferencia está definida por el punto de partida (el dataset) y por el objetivo (qué queremos obtener del dataset).
En aproximaciones supervisadas, queremos obtener (automáticamente) un algoritmo para asociar (también automáticamente) casos nuevos con una clase, etiqueta o valor, que es nuestro objetivo. Por ejemplo, queremos saber si un mail es spam o no, queremos saber si mañana va a llover, queremos saber cuánto van a subir las acciones en bolsa. En estos ejemplos, el mail, el día y la acción son los casos, y el objetivo es "spam / no spam", "probabilidad de lluvia" y "aumento de valor".
Para asociar casos a nuestro objetivo automáticamente, necesitamos un algoritmo, una función, algo. El aprendizaje automático nos provee de herramientas para descubrir este algoritmo o función. A estas herramientas las llamamos "aprendedores automáticos", y son muy distintos entre ellos. Lo que tienen en común es que en todos los casos aprenden a partir de ejemplos de casos que han sido asociados manualmente al objetivo.
Para que estas herramientas funcionen, necesitamos un conjunto de ejemplos que hayan sido asociados manualmente al objetivo. Por ejemplo, necesitamos un conjunto de mails que hayan sido clasificados como "spam" o "no spam", un conjunto de días en los que hayamos visto que llovía o no llovía, un conjunto de acciones con su evolución de precio en el tiempo.
Y si tenemos un conjunto de ejemplos, un conjunto de datos, que no están asociados a clase o valor, porque quizás ni siquiera tenemos claro cuál sería nuestro objetivo, qué querríamos representar? Bueno, en ese caso podremos aplicar herramientas no supervisadas, que nos darán una descripción del conjunto de ejemplos, haciendo un resumen de los grandes rasgos que caracterizan al dataset (clustering) o de las tendencias que encontramos (reglas de asociación).
Si quieren leer un poco más sobre el tema: