Test du χ² (Khi2, Chi2)
En langage R
L'essentiel de cette page !
Le χ² (synonymes χ2, Chi2, Khi2, Chi², Khi²) permet de comparer des répartitions d'effectifs.
On distingue :
le Khi2 de conformité qui permet de comparer un effectif à une valeur théorique attendue.
les Khi2 d'homogénéité et d'indépendance qui permettent de voir si un effectif peut être dû au seul hasard.
L'ensemble de ces tests peuvent être réalisés avec la commande chisq.test() de R.
Attention, le test de Khi² ne marche pas pour les petits effectifs : 80% des effectifs doivent dépasser 5 individus. Le mieux est peut-être de renoncer à ce test pour le test-G, moins connu mais meilleur, et adapté autant aux petits échantillons qu'aux grands. Suivre la page d'aide au G-test.
On notera que lorsqu'un lien a été établi entre deux variables, il reste à déterminer la nature du lien (est-ce les hommes qui ont un grand salaire ou les femmes), cela pourra être fait par l'AFC.
Remarque : à l'issu de tout Khi², le graphique adapté un diagramme d'erreur avec intervalles de confiance sur proportions.
Consulter l'aide ici pour voir comment faire.
1- Khi² de conformité ou d'adéquation - faire une correspondance entre théorie et observation
Définition du khi² de conformité
Le Khi2 de conformité permet de savoir si il y a correspondance entre la théorie et une répartition observée. Le test du Khi-deux permet donc de voir si un échantillon est conforme à la théorie ou s'il en diffère significativement.
L'hypothèse nulle (H0) est : l'observation ne diffère pas de la théorie. Le résultat du Khi² de conformité permet de rejeter ou non H0.
Résultats
La p-value donne la probabilité de validation de H0 - la probabilité de voir une conformité entre la théorie et l'observation. Plus p-value est petite, plus la théorie et l'observation diffèrent.
X-square, cette valeur classique renvoyée par un test de Khi2 permet de retrouver manuellement la p-value en s'aidant d'un tableau disponible dans tout bon livre de statistiques.
Exemple de khi² de conformité
On effectue un croisement en génétique.
En théorie, on devrait observer dans la descendance : 75% d'individus à yeux rouges et 25% à yeux blancs.
On observe en réalité sur une génération de 39 individus : 32 individus à yeux rouges et 7 à yeux blancs (Tab 1).
Ainsi, si on avait eu un effectif conforme à la théorie de 39 individus, on aurait dû observer la répartition suivante (Tab 2).
Objectif du test de Khi2 de conformité : vérifier si les les résultats que l'on observe diffèrent significativement de ce que la théorie laissait envisager.
Hypothèse nulle (H0) : les résultats observés sont conforme à la théorie.
Si l'hypothèse nulle est rejetée, alors on a un cas particulier de génétique qu'il faudra élucider.
Réalisation d'un test Khi2 de conformité avec le logiciel R project
# Descendance observée
descendance <- c(7,32)
# probabilités théoriques : d'un point de vue théorique, on devrait avoir 3/4 et 1/4 soit 75 et 25%
proba <- c(0.25,0.75)
# Réalisation du test de khi-deux
chisq.test(descendance,p=proba)
# On récupère la valeur du Khi2 1.03 et aussi la probabilité d'avoir une telle situation p=0.3 ==> Plus de 30% de situation où l'hypothèse serait rejetée à tort. Événement similaire à H0.
Ainsi, la p-value ici nous permet d'en déduire que les résultats observés sont conformes à la théorie.
Ou du moins, on ne peut affirmer qu'ils ne sont pas conformes à la théorie.
2- Khi² d'indépendance
Définition du khi² d'indépendance
Le Khi2 de conformité permet de savoir si il y a correspondance entre la théorie et une répartition observée. Le test du Khi-deux permet donc de voir si un échantillon est conforme à la théorie ou s'il en diffère significativement.
L'hypothèse nulle (H0) est : la théorie diffère de l'observation.Le résultat du Khi² de conformité permet de rejeter ou non H0.
La p-value donne la probabilité de non-validation de H0 - la probabilité de voir une conformité entre la théorie et l'observation.Plus p-value est petite, plus la théorie et l'observation diffèrent.
Le Khi2 d'indépendance permet de savoir si il y a indépendance entre 2 critères susceptibles de créer une différence de répartition.
L'hypothèse nulle (H0) est : le fait de connaître l'appartenance d'un individu à une population (selon un critère) ne donne aucun indice sur la caractéristique qui le défini selon l'autre critère.
Par exemple : est-ce que le fait de connaître la couleur des yeux de quelqu'un me permet de supposer sur son sexe ? Réponse : non.
Par exemple : est-ce que le fait de connaître la taille de quelqu'un permet de supposer sur son sexe ? Réponse : oui, plus un individu est petit, plus il y a des chances que ce soit une femme.
Résultats
La p-value donne la probabilité de validation de H0 - la probabilité de ne voir aucun lien entre les critères. Plus p-value est petite, plus il y a un lien entre les critères (et donc pas d'indépendance).
X-square, cette valeur classique renvoyée par un test de Khi2 permet de retrouver manuellement la p-value en s'aidant d'un tableau disponible dans tout bon livre de statistiques.
Exemple de khi² d'indépendance
Prenons un exemple cité en 2013 dans Wikipedia.
Intéressons-nous aux salaires des hommes et des femmes. Imaginons que l'on a demandé à 290 hommes et 285 femmes leurs salaires (Tab 3).
Objectif du Khi-deux : vérifier si les hommes et les femmes ont effectivement le même salaire (hypothèse nulle H0) ou si, au contraire, leurs salaires diffèrent.
Hypothèse nulle (H0) : le fait de connaître le sexe ne permet pas d'aider à deviner la tranche salariale d'un d'individu et inversement.
Si l'hypothèse nulle est rejetée, alors on a une relation sexe-salaire qui indiquera ici que les femmes sont moins bien rémunérées.
Réalisation d'un test Khi2 d'indépendance avec en langage R (logiciel R project)
# Créations des vecteurs correspondant aux 2 catégories :
hommes = c(50,70,110,60)
femmes = c(80,75,100,30)
# Création d'une matrice comparative :
tableau = matrix(c(hommes, femmes),2,4,byrow=T) # (2 : nombre de lignes et 4 nombres de colonnes (tranches salariales))
# Réalisation du test khi-deux - les résultats sont sauvegardés dans "khi_test"
khi_test = chisq.test(tableau)
khi_test # affiche le résultat du test
Ainsi, la p-value ici est de 0.0005 : il y a donc un lien statistique entre le sexe et la tranche salariale car la p-value est très petite.
3- Khi² d'homogénéité
Définition du khi² d'indépendance
Le khi2 d'homogénéité est un khi d'indépendance. Il est seulement réalisé dans un but différent.
Le Khi2 d'homogénéité permet de vérifier que les répartitions de différents effectifs sont équivalentes.
Ce test repose ainsi sur 2 hypothèses :
H0 : il n'y a pas de différence significative dans la répartition des 3 groupes étudiés
H1 : il y a une différence - cette hypothèse est a affiné en fonction du cas étudié (cf. exemple ci-dessous)
Exemple de khi² d'homogénéité
Prenons un exemple cité ici
Imaginons 3 populations d'étudiant dont nous étudions le taux d'admission chez 3 groupes d'étudiants sur lesquels 3 pédagogies ont été testées.
Objectif du Khi-deux : vérifier s'il y a une différence entre les 3 pédagogies.
Hypothèse nulle (H0) : il n'y a pas de différence significative dans la répartition des 3 groupes étudiés
Hypothèse 1 (H1) : au moins 1 des 3 méthodes est plus efficace que les autres
Réalisation d'un test Khi2 d'indépendance avec le logiciel R project
# Créations des vecteurs correspondant aux 2 catégories :
pédago1 = c(51, 29)
pédago2 = c(38, 12)
pédago3 = c(86, 34)
# Création d'une matrice comparative :
tableau = matrix(c(pédago1,pédago2,pédago3),3,2,byrow=T) # (3 : nombre de lignes et 2 nombres de colonnes)
# autre écriture de la ligne précédente
tableau = rbind(pédago1,pédago2,pédago3)
# Réalisation du test khi-deux - les résultats sont sauvegardés dans "khi_test"
khi_test = chisq.test(tableau)
khi_test # affiche le résultat du test
Ainsi, la p-value ici est de 0.2859 ==> La probabilité d'obtenir ainsi de telles différences de répartition entre les 3 effectifs est ainsi de 28.59%. Cela n'implique donc pas de différence particulière.
4- La fonction chisq.test de R
La commande chisq.test permet de réaliser l'ensemble des tests de χ² .
Cette commande renvoie des valeurs qui permettent de valider ou non l'hypothèse nulle (cf. ci-dessus Khi2 de conformité et d'indépendance).
Elle permet aussi de récupérer des informations complémentaires à un test :
Reprenons les résultats de l'exemple de test de χ² réalisés ci-dessus (exemple de χ² d'indépendance).
Les résultats sont compilés dans khi_test, dans cet exemple.
khi_test # si je tape khi_test (dans cet exemple) : je vais récupérer différentes valeurs
X-squared : valeur du Chi-deux calculée, cette valeur rapportée manuellement sur une table permet de savoir si on peut valider l'hypothèse nulle et avec quel risque de se tromper.
df : degrés de liberté : cette valeur est nécessaire avec X-squared pour retrouver la distance critique sur la table de khi-deux.
p-value : probabilité d'obtenir nos résultats observés. Plus cette valeur est petite, plus l'hypothèse nulle doit être rejetée.
Je vais aussi pouvoir récupérer les valeurs compilées dans le test :
#résultats attendus/théoriques
khi_test$expected
# résultats observés
khi_test$observed
# différence entre résultats attendus et observés
khi_test$residual