L'exercice aborde la normalisation des attributs continus. Il faut noter que de nombreuses méthodes d'apprentissage statistique et méthodes d'apprentissage basées sur l'utilisation de distances nécessitent de normaliser les attributs. C'est le cas des SVMs, des réseaux de neurones, des méthodes de plus proche voisin, des méthodes de clustering comme les k-moyennes.
- Soit un attribut B prenant les valeurs -0.5, 2.2, -1, 0.5, 0.75, -0.4 et 3. Pour ramener dans [0,1], on effectue la transformation en remplaçant une valeur x dans l'intervalle [min, max] par la valeur (x-min)/(max-min). Soit ici (x+1)/4. Les nouvelles valeurs de B sont alors respectivement 0.125, 0.8, 0, 0.375, 0.4375, 0.15 et 1. Pour ramener dans [-1,1], on effectue la transformation en remplaçant une valeur x dans l'intervalle [min, max] par la valeur -1+ 2(x-min)/max-min). Soit ici -1 + 2(x+1)/4. Les nouvelles valeurs de B sont alors respectivement -0.75, 0.6, -1, -0.25,-0.125, -0.7 et 1.
- La moyenne des valeurs de A est a=4.14. L'écart type empirique est la racine carrée de la somme des carrés des écarts à la moyenne, soit la racine carrée de (1-a)^2 + (1.5-a)^2 + ... + (9-a)^2 qui vaut sd=7.1. Les nouvelles valeurs de A sont -0.44, -0.37, -0.30, -0.02, 0.19, 0.26 et 0.68. Soit un attribut B prenant les valeurs -0.5, 2.2, -1, 0.5, 0.75, -0.4 et 3. Les nouvelles valeurs de B sont -0.32, 0.43, -0.46, -0.04, 0.03, -0.29 et 0.65.