Se realizo un proceso de selección y transformación los atributos de los datos originales, con el fin de mejorar los modelos de clasificación. En esta tipo de tratamiento se pueden combinar características o crear nuevos atributos, de igual manera se eliminaron características irrelevantes o redundantes.
El objetivo es la clasificación de pacientes, por lo que es necesario preparar los datos para el entrenamiento de los diferentes modelos de clasificación realizando tareas de integración, transformación y normalización de los registros en un conjunto de datos. Para ello, los registros de cada participante se caracterizan mediante un “vector de características” calculado a partir de la extracción de tres atributos por cada día, basados en el nivel de actividad registrado.
El contenido de los vectores es:
Media del nivel de actividad diario
Desviación Estándar del nivel de actividad
Porcentaje de eventos sin actividad en el día (activity = 0)
Además se obtuvo otra tabla con los vectores normalizados con min-max
La obtención de los nuevos atributos del vector antes mencionado se realizo por medio de programas desarrollados en Python, los cuales obtuvieron los datos tomando en cuenta el número n de días que se consideraron en el experimento, aunque existían registros de más días. Estos días vienen expresados en la tabla de información de cada paciente mencionada en la introducción.