Tratamiento de los datos para su uso en SKLearn
Datos en scikit-learn
Los datos en Scikit Learn, salvo algunas excepciones, suelen estar almacenados en arrays de 2 dimensiones, con forma [n_samples, n_features].
n_samples: este es el número de ejemplos. Cada ejemplo es un ítem a procesar (por ejemplo, clasificar). Un ejemplo puede ser un documento, una imagen, un sonido, un vídeo, un objeto astronómico, una fila de una base de datos o de un fichero CSV, o cualquier cosa que se pueda describir usando un conjunto prefijado de trazas cuantitativas.
n_features: este es el número de características descriptoras que se utilizan para describir cada item de forma cuantitativa. Las características son, generalmente, valores reales, aunque pueden ser categóricas o valores discretos.
Como ya comentamos en otras secciones, representamos los ejemplos (puntos o instancias) como filas en el array de datos y almacenamos las características correspondientes, las "dimensiones", como columnas.
Práctica 1.1 - Tratamiento de datos. (fichero de la práctica)
Uno de los principales problemas con que nos encontramos a la hora de tratar con datos es que estos no están dispuestos de forma adecuada o faltan algunos de ellos en las columnas de nuestras bases de datos y hojas de cálculo (formato xlxs o csv). En la siguiente práctica se ilustra el tratamiento, normalización y estandarización de estos datos.
Ficheros para hacer la práctica:
Base de datos "Datos_Personas.csv"
Práctica 1.2 - Tratamiento de datos. (fichero de la práctica)
Repite el proceso de la práctica anterior con los datos del fichero movies.csv que contiene las valoraciones IMDB y los Likes en Facebook de más de 5000 registros.