L'objectif est d'introduire sur un exemple simpliste les règles de classement probabilistes. Notez bien qu'on fait l'hypothèse irréaliste de connaître les probabilités alors que, dans une situation réelle, on ne dispose que d'estimations de ces probabilités. Notez également que le problème est simplissime car les individus sont décrits par un seul attribut Booléen.
Nous allons procéder par application "bête" des formules du cours puis donnerons une interprétation des erreurs.
Tout d'abord, nous pouvons calculer P(t=VRAI) car P(t=VRAI) = P(t=VRAI|3)xP(3) + P(t=VRAI|2)xP(2) + P(t=VRAI|1)xP(1)= 0.2 + 0.27 + 0.225 = 0.695 en utilisant les formules vues à l'exercice 1. On calcule également P(t=FAUX) par le même procédé ou en remarquant que P(t=FAUX) = 1-P(t=VRAI) = 0.305.
On vérifie sur l'exemple que l'erreur de la règle de Bayes est la plus petite.
Une autre façon de calculer les erreurs est la suivante. Si on considère la population, on peut la décomposer en une partition en 6 sous-ensembles : les informaticiens avec une tablette, les informaticiens sans tablette, les médecins avec une tablette, les médecins sans tablette, les ouvriers avec une tablette, les ouvriers sans tablette. Ces 6 sous ensembles ont pour probabilité respective 0.2x1=0.2, 0.2x0=0, 0.3x0.9=0.27, 0.3x0.1=0.03, 0.5x0.45=0.225 et 0.5x0.55=0.275. Pour la règle majoritaire, elle se trompe sur les quatre sous-ensembles informaticiens avec une tablette, informaticiens sans tablette, médecins avec une tablette, médecins sans tablette de probabilité 0.2+0+0.27+0.03=0.5 et on retrouve E(maj) = 0.5. Pour la règle du maximum de vraisemblance, elle se trompe sur les quatre sous-ensembles informaticiens sans tablette, médecins avec une tablette, médecins sans tablette et ouvriers avec tablette de probabilité 0+0.27+0.03+0.225=0.525 et on retrouve E(vrais)=0.525. Pour la règle de Bayes, elle se trompe sur les quatre sous-ensembles informaticiens avec une tablette, informaticiens sans tablette, médecins sans tablette et ouvriers avec tablette de probabilité 0.2+0+0.03+0.225=0.455 et on retrouve E(Bayes)=0.455.
L'objectif est d'introduire les bases du raisonnement Bayésien.
L'objectif est d'introduire la notion de coût de (mauvaise) classification.
L'objectif est de trouver des règles de classement lorsqu'on ne connaît pas les probabilités a priori de répartition entre les classes.
On ne connaît pas les probabilités P(1) et P(2). On connaît les probabilités suivantes : P(00|1)=0.8, P(01|1)=0.1, P(10|1)=0.1, P(11|1)=0, P(00|2)=0, P(01|2)=0.05, P(10|2)=0.15, P(11|2)=0.8. On peut remarquer que, quelles que soient les valeurs de P(1) et P(2), on peut utiliser la régle de classement de Bayes pour les descriptions 11 et 00 car P(11|1)=0 (et donc P(1|11)=0) et P(00|2)=0 (et donc P(2|00)=0). Cette régle attribuera à 11 la classe 2 et à 00 la classe 1. Par contre, pour les descriptions 01 et 10, la classe va dépendre des valeurs de P(1) et P(2). Notons p=P(1) et donc P(2)=1-p.
Pour la description $01$, on a
On va choisir la classe 1 pour la description 01 avec la régle de Bayes si P(1 | 01) est plus grand que P(2 | 01) donc lorsque 0.1p > 0.05(1-p). Ce qui nous donne p>1/3. Par conséquent, la régle de Bayes associe à la description 01 la classe 1 si p > 1/3 et la classe 2 sinon.
On procède de même pour la description 10. On obtient P(1 | 10) = 0.1p/P(10) et P(2 | 10) = 0.15(1-p)/Pr(10). La régle de Bayes associe à la description 10 la classe 1 si p > 3/5 et la classe 2 sinon.
Selon la valeur de $p$, nous obtenons les classements C1, C2 et C3 suivants (rappelons que toutes classent 00 en 1 et 11 en 2) :
Mais on ne connaît pas p donc comment choisir une règle parmi C1, C2 et C3 ! Pour cela, calculons d'abord les erreurs des fonctions de classement C1, C2 et C3.
Nous avons E(C1) = P(2|00) P(00) + P(1|01) P(01) + P(1|01) P(10) + P(1|11) P(11), que nou pouvons réécrire
E(C1) = P(00|2) P(2) + P(01|1) P(1) + P(01|1) P(1) + P(11|1) P(1)$, et en remplaçant par les expressions et en simplifiant, nous obtenons
E(C1) = 0.1p +0.1p = 0.2p. De même, on montre que E(C2) = 0.05 (1+p) et E(C3) = 0.2 (1-p).
Pour choisir sans connaître p, plusieurs solutions sont possibles.
Application des exercices précédents