Exercices modélisation probabiliste (8.2.1)

Exercice 4

L'objectif est d'introduire sur un exemple simpliste les règles de classement probabilistes. Notez bien qu'on fait l'hypothèse irréaliste de connaître les probabilités alors que, dans une situation réelle, on ne dispose que d'estimations de ces probabilités. Notez également que le problème est simplissime car les individus sont décrits par un seul attribut Booléen.

Les régles de classement

  • La règle majoritaire, notée maj, ne regarde que les probabilités des classes. Donc quelle que soit la description d'un individu (il a, ou pas, une tablette, cette règle lui associe la classe 1 pour ouvrier. On peut noter ceci comme maj(t=VRAI) = maj(t=FAUX) = 1.
  • La règle du maximum de vraisemblance, notée vrais, regarde les probabilités conditionnelles de la description sachant la classe. Pour la classe t=VRAI, on regarde la seconde ligne du tableau qui donne la probabilité d'avoir une tablette sachant qu'on est informaticien, médecin ou ouvrier. La valeur majoritaire est obtenue pour la classe 3, soit informaticien. Par conséquent, vrais(t=VRAI)=3. Pour la classe t=FAUX, les probabilités correspondent à l'événement contraire de t=VRAI, donc on regarde 1-P(t=VRAI). les valeurs, dans l'ordre du tableau, sont donc respectivement 0, 0.1 et 0.55. Par conséquent, vrais(t=FAUX) = 1.
  • La régle de Bayes, notée Bayes, regarde les produits P(d|y)P(y). On obtient P(t=VRAI|1)P(1) = 0.45x0.5 = 0.225 ; P(t=VRAI|2)P(2) = 0.9x0.3 = 0.27 ; P(t=VRAI|3)P(3) = 1x0.2 = 0.2. Par conséquent, Bayes(t=VRAI)=2. La différence avec la règle vrais est qu'ici on a tenu compte des répartitions. Comme les médecins représentent 30% de la population et qu'ils ont une forte probabilité (0.9) d'avoir une tablette, ils l'emportent sur les informaticiens qui ont tous une tablette mais ne représentent que 20% de la population. On trouve également P(t=FAUX|1)P(1) = 0.55x0.5 = 0.275 ; P(t=FAUX|2)P(2) = 0.1x0.3 = 0.03 ; P(t=FAUX|3)P(3) = 0x0.2 = 0. Par conséquent, Bayes(t=FAUX)=1.

Les erreurs de classement

Nous allons procéder par application "bête" des formules du cours puis donnerons une interprétation des erreurs.

Tout d'abord, nous pouvons calculer P(t=VRAI) car P(t=VRAI) = P(t=VRAI|3)xP(3) + P(t=VRAI|2)xP(2) + P(t=VRAI|1)xP(1)= 0.2 + 0.27 + 0.225 = 0.695 en utilisant les formules vues à l'exercice 1. On calcule également P(t=FAUX) par le même procédé ou en remarquant que P(t=FAUX) = 1-P(t=VRAI) = 0.305.

  • Erreur de la règle majoritaire. L'erreur est la somme pondérée des erreurs pour les descriptions t=VRAI et t=FAUX soit encore E(maj) = E(maj(t=VRAI))xP(t=VRAI) + E(maj(t=FAUX))xP(t=FAUX). L'erreur E(maj(t=VRAI)) est la probabilité de se tromper lorsque la personne a une tablette, Soit E(maj(t=VRAI)) = P(3|t=VRAI)+P(2|t=vrai) où vous pouvez calculer chacun des deux termes en utilisant la formule de bayes. Ou encore E(maj(t=VRAI)) = 1-P(1|t=VRAI). En utilisant la formule de Bayes, on obtient E(maj(t=VRAI)) = 1 - (P(t=VRAI|1)xP(1))/(P(t=VRAI) = 1 - (0.45x0.5)/0.695= 0.47/0.695. De même, on a E(maj(t=FAUX)) = 1 - (P(t=FAUX|1)xP(1))/(P(t=FAUX) = 1 - (0.55x0.5)/0.305= 0.03/0.305. Finalement, E(maj) = (0.47/0.695)x0.695 + (0.03/0.305)x0.305 = 0.47+0.03, soit E(maj) = 0.5. Tout ça pour ça ! L'erreur était évidemment de 50% car on se trompe pour les médecins et les informaticiens qui représentent 50% de la population !
  • Erreur de la règle du maximum de vraisemblance. Par le même type de calcul, on trouve E(vrais)=0.525.
  • Erreur de la règle de Bayes. Par le même type de calcul, on trouve E(Bayes)=0.455.

On vérifie sur l'exemple que l'erreur de la règle de Bayes est la plus petite.

Une autre façon de calculer les erreurs est la suivante. Si on considère la population, on peut la décomposer en une partition en 6 sous-ensembles : les informaticiens avec une tablette, les informaticiens sans tablette, les médecins avec une tablette, les médecins sans tablette, les ouvriers avec une tablette, les ouvriers sans tablette. Ces 6 sous ensembles ont pour probabilité respective 0.2x1=0.2, 0.2x0=0, 0.3x0.9=0.27, 0.3x0.1=0.03, 0.5x0.45=0.225 et 0.5x0.55=0.275. Pour la règle majoritaire, elle se trompe sur les quatre sous-ensembles informaticiens avec une tablette, informaticiens sans tablette, médecins avec une tablette, médecins sans tablette de probabilité 0.2+0+0.27+0.03=0.5 et on retrouve E(maj) = 0.5. Pour la règle du maximum de vraisemblance, elle se trompe sur les quatre sous-ensembles informaticiens sans tablette, médecins avec une tablette, médecins sans tablette et ouvriers avec tablette de probabilité 0+0.27+0.03+0.225=0.525 et on retrouve E(vrais)=0.525. Pour la règle de Bayes, elle se trompe sur les quatre sous-ensembles informaticiens avec une tablette, informaticiens sans tablette, médecins sans tablette et ouvriers avec tablette de probabilité 0.2+0+0.03+0.225=0.455 et on retrouve E(Bayes)=0.455.

Exercice 5

L'objectif est d'introduire les bases du raisonnement Bayésien.

  1. La probabilité P(d|1) de tirer 7 faces et 13 piles avec une pile de type 1 (pièce non biaisée de probabilté 0.5 pour face et pile) est P(d|1) = (1/2)^7 x (1/2)^13. De même, on obtient P(d|2)= (1/3)^7 x (2/3)^13. De même, on obtient P(d|3)= (1/4)^7 x (3/4)^13. On fait l'hypothèse a priori que les classes sont équiprobables donc P(1)=P(2)=P(3)= 1/3. Ceci nous permet de calculer P(d)= P(d/1) \times P(1) + P(d/2) \times P(2) + P(d/3) \times P(3). On applique ensuite la règles de Bayes ce qui nous permet d'obtenir P(1/d) = (P(d/1) x P(1))/P(d) qui vaut approximativement 0.251, P(2/d) = (P(d/2) x P(2))/P(d) qui vaut approximativement 0.494, P(3/d) = (P(d/3) x P(3))/P(d) qui vaut approximativement 0.255.
  2. La règle de classement de Bayes cherche la classe qui maximise la probabilité de la classe sachant la description d. Donc, dans cet exemple, la règle de Bayes privilégie la classe 2. Notez que ceci est très naturel car la valeur la plus proche de 7/20 est 1/3 parmi les trois possibilités de probabilité pour face qui sont 1/2, 1/3 et 1/4.
  3. A priori, sans autre information, notre hypothèse a priori est que que les trois classes soient équiprobables (de probabilité 1/3). Après avoir tiré plusieurs fois la pièce et obtenu la description d, nous pouvons réviser cette hypothèse. Notre nouvelle hypothèse, dite hypothèse a posteriori, est que la classe 2 a une probabilité égale à 0.494, la classe 3 a une probabilité 0.255 et la classe 1 a une probabilité de 0.251.
  4. Si on relancait la pièce, on pourrait considérer comme nouvelle hypothèse a priori que les probabilités des classes sont maintenant P(1)=0.251, P(2)=0.494 et P(3)=0.255. Et mettre à jour les probabilités des hypothèses avec les résultats des lancers. Par exemple si on obtenait encore 7 piles et 13 faces, cela renforcerait l'hypothèse 2. Si on obtenait 11 faces et 9 piles, on renforcerait alors l'hypothèse 1.

Exercice 6

L'objectif est d'introduire la notion de coût de (mauvaise) classification.

  1. P(volve|1)x P(1) = 0,05x0,9 = 0,045 et P(volve|2)x P(2) = 0,95x0,2 = 0,190. Donc la règle de Bayes associe la classe 2 aux champignons ayant une volve. Elle me conseille de ramasser les champignons ayant une volve et de les manger. Risqué !
  2. coutMoyen(1|volve) = cout(1,1)xP(1|volve) + cout(1,2)xP(2|volve) = 0 + 2xP(2|V)$ et coutMoyen(2|volve) = cout(2,1)xP(1|volve) = NxP(1|volve). Pour N suffisamment grand, la règle du coût minimum attribue la classe 1, je ne ramasse pas, ouf !

Exercice 7

L'objectif est de trouver des règles de classement lorsqu'on ne connaît pas les probabilités a priori de répartition entre les classes.

On ne connaît pas les probabilités P(1) et P(2). On connaît les probabilités suivantes : P(00|1)=0.8, P(01|1)=0.1, P(10|1)=0.1, P(11|1)=0, P(00|2)=0, P(01|2)=0.05, P(10|2)=0.15, P(11|2)=0.8. On peut remarquer que, quelles que soient les valeurs de P(1) et P(2), on peut utiliser la régle de classement de Bayes pour les descriptions 11 et 00 car P(11|1)=0 (et donc P(1|11)=0) et P(00|2)=0 (et donc P(2|00)=0). Cette régle attribuera à 11 la classe 2 et à 00 la classe 1. Par contre, pour les descriptions 01 et 10, la classe va dépendre des valeurs de P(1) et P(2). Notons p=P(1) et donc P(2)=1-p.

Pour la description $01$, on a

  • P(1 | 01) = (P(01 | 1)P(1))/P(01)=0.1p/P(01)
  • P(2 | 01) = P(01 | 2)P(2)/P(01)=0.05(1-p)/P(01)$$

On va choisir la classe 1 pour la description 01 avec la régle de Bayes si P(1 | 01) est plus grand que P(2 | 01) donc lorsque 0.1p > 0.05(1-p). Ce qui nous donne p>1/3. Par conséquent, la régle de Bayes associe à la description 01 la classe 1 si p > 1/3 et la classe 2 sinon.

On procède de même pour la description 10. On obtient P(1 | 10) = 0.1p/P(10) et P(2 | 10) = 0.15(1-p)/Pr(10). La régle de Bayes associe à la description 10 la classe 1 si p > 3/5 et la classe 2 sinon.

Selon la valeur de $p$, nous obtenons les classements C1, C2 et C3 suivants (rappelons que toutes classent 00 en 1 et 11 en 2) :

  • si p <=1/3, C1(01) = C1(10) = 2
  • si 1/3<p<=3/5, C2(01) = 1 et C2(10) =2
  • si 3/5<p, C3(01) = C3(10) = 1

Mais on ne connaît pas p donc comment choisir une règle parmi C1, C2 et C3 ! Pour cela, calculons d'abord les erreurs des fonctions de classement C1, C2 et C3.

Nous avons E(C1) = P(2|00) P(00) + P(1|01) P(01) + P(1|01) P(10) + P(1|11) P(11), que nou pouvons réécrire

E(C1) = P(00|2) P(2) + P(01|1) P(1) + P(01|1) P(1) + P(11|1) P(1)$, et en remplaçant par les expressions et en simplifiant, nous obtenons

E(C1) = 0.1p +0.1p = 0.2p. De même, on montre que E(C2) = 0.05 (1+p) et E(C3) = 0.2 (1-p).

Pour choisir sans connaître p, plusieurs solutions sont possibles.

  • Une première solution serait de l'estimer à partir d'informations sur le problème (expertise, estimation sur des problèmes similaires, ...).
  • Une deuxième solution serait de supposer les hypothèses comme équiprobable, donc supposer que p=0.5, ce qui ferait à choisir $C_2$.
  • Une troisième solution, proposée dans l'exercice, est la règle du minimax basée sur l'idée suivante : si je me trompe de fonction, il faut s'assurer que l'erreur maximale que je fasse ne soit pas trop grande. C'est-à-dire choisir la fonction qui minimise l'erreur maximale. Pour C1, l'erreur maximale est obtenue pour $p=1$ et vaut 0.2. Pour C2, l'erreur maximale est obtenue pour p=1 et vaut $0.15$. Pour C3, l'erreur maximale est obtenue pour p=0 et vaut 0.2. On choisit alors la procédure qui minimise cette erreur maximale. On choisit donc la procédure $C_2$. Une représentation graphique des erreurs aide la compréhension.

Exercice 8

Application des exercices précédents