CLASIFICACIÓN
Hemos comentado que cuando usamos aprendizaje automático, podemos realizar tareas de clasificación o de regresión. En la práctica anterior hemos hecho una introducción a los conceptos básicos de la regresión y en este capítulo vamos a analizar la clasificación. Veamos en el siguiente vídeo sus diferencias.
La clasificación, por tanto, es un tipo de aprendizaje supervisado, que puede ser pensado como un medio de categorización o «clasificación» de algunos elementos desconocidos en un conjunto discreto de «clases».
La clasificación intenta aprender la relación entre un conjunto de variables características y una variable objetivo. El atributo objetivo en clasificación es una variable categórica con valores discretos.
Por tanto, cuando usamos clasificación, el resultado es una clase, entre un número limitado de clases. Con clases nos referimos a categorías arbitrarias según el tipo de problema.
Por ejemplo, si queremos detectar si un correo es spam o no, sólo hay 2 clases. Y el algoritmo de Machine Learning de clasificación, tras darle un correo electrónico, tiene que elegir a qué clase pertenece: spam o no-spam. Hay muchos más ejemplos, por supuesto:
¿Comprará el cliente este producto? [sí, no]
¿Tipo de tumor? [maligno, benigno]
¿Subirá el índice bursátil? IBEX mañana [sí, no]
¿Es este comportamiento una anomalía? [sí, no]
¿Nos devolverá este cliente un crédito? [sí, no]
¿Qué deporte estás haciendo? tal y como lo detectan los relojes inteligentes [caminar, correr, bicicleta, nadar]
¿Obtendrá una historia un número alto de visitas en un agregador de noticias? [sí, no]
Este proceso de clasificación es un proceso de dos pasos, paso de aprendizaje y paso de predicción. En el paso de aprendizaje, el modelo se desarrolla en base a datos de capacitación dados. En el paso de predicción, el modelo se usa para predecir la respuesta para datos dados.
Los Árboles de Decisión en Machine Learning es uno de los algoritmos de clasificación más fáciles y populares de entender e interpretar (se pueden utilizar también en regresión). Veamos su técnica y fundamento en el siguiente vídeo.
MATRIZ DE CONFUSIÓN. ¡IMPORTANTE!
Al igual que en el caso de la regresión, la otra forma que hemos visto de aprendizaje supervisado, tenemos que evaluar nuestro modelo, es decir, tenemos que determinar cual es su precisión y si esta cumple con los parámetros marcados previamente. Para hacerlo en el caso de los problemas de Clasificación tenemos la herramienta denominada Matriz de Confusión que queda convenientemente explicada en el siguiente vídeo.