Se realizo un proceso de selección y transformación los atributos de los datos originales, con el fin de mejorar los modelos de clasificación. En esta tipo de tratamiento se pueden combinar características o crear nuevos atributos, de igual manera se eliminaron características irrelevantes o redundantes. En este caso se redujeron el número de variables, esto debido a que mcuhas de ellas tenia contenido nulo.
El objetivo es la clasificación de pacientes, por lo que es necesario preparar los datos para el entrenamiento de los diferentes modelos de clasificación realizando tareas de integración, transformación y normalización de los registros en un conjunto de datos. Para ello, los registros de cada participante se caracterizan mediante un “vector de características” calculado a partir de la extracción de tres atributos por cada día, basados en el nivel de actividad registrado.
El contenido de los vectores es:
Media del nivel de actividad diario
Desviación Estándar del nivel de actividad
Porcentaje de eventos sin actividad en el día (activity = 0)
Además se obtuvo otra tabla con los vectores normalizados con min-max
La obtención de los nuevos atributos del vector antes mencionado se realizo por medio de programas desarrollados en Python, los cuales obtuvieron los datos tomando en cuenta el número n de días que se consideraron en el experimento, aunque existían registros de más días. Estos días vienen expresados en la tabla de información de cada paciente mencionada en la introducción.