Exercices estimation de l'erreur (8.2.4)

Exercices 15, 16 et 17

exoslivapperreur.pdf

La procédure majoritaire associe à tout exemple, quelle que soit sa description, la classe +1. Son erreur en apprentissage est 1200/5000 = 24% ; son erreur en test est 700/3000 ~ 23.33% ; son erreur en validation est 500/2000 = 25%. Toute procédure apprise devra faire mieux !
Les erreurs en apprentissage, validation et test sont respectivement : para=1, 16%, 20% et 16% ; para=10, 13%, 18.33% et 15.5% ; para=20, 11%, 15% et 15.25% ; para=50, 9%, 16% et 15% ; para=100, 8%, 18% et 16% ; para=200, 8%, 22% et 17%.
L'erreur en apprentissage est mesurée sur S qui sert à apprendre et un système d'apprentissage cherche à minimiser cette erreur. Cette erreur est donc, en général, inférieure à l'erreur mesurée sur V qui n'a pas été utilisé par l'algorithme d'apprentissage.
Pour choisir la valeur du paramètre, on regarde l'erreur estimée en validation. Sur notre exemple, elle est minimale pour une valeur de paramètre égale à 20 et elle vaut 15%.
On ne peut pas utiliser cette valeur pour estimer l'erreur réelle car elle est calculée sur un ensemble de validation qui a été utilisé en apprentissage car il nous a servi à choisir la meilleure valeur du paramètre. Pour estimer l'erreur de la procédure construite, il faut donc utiliser l'erreur calculée sur l'ensemble test T qui lui n'a jamais été utilisé en apprentissage. L'erreur réelle estimée est donc de 15,25%.