Tests statistiques et conditions d'utilisation

Intervalle de confiance

L'intervalle de confiance s'applique à une distribution sous forme de loi normale, à partir d'un échantillonnage aléatoire. L'intervalle de confiance à 95 % est intervalle de valeurs qui à 95 % de chance de contenir la vraie valeur du paramètre estimé.

Coefficient de corrélation

Le coefficient de corrélation s'applique sur une distribution en loi normale. Il indique que deux variables peuvent être liées par une relation de causalité. Il varie de -1 à 1, la valeur 0 signifiant que les deux variables sont indépendantes (en loi normale).

Risque relatif et odd-ratio

Soit le tableau suivant :

Le risque relatif est le rapport (a/(a+b)) / (c/(c+d))

L'odd-ratio vaut (a/b)/(c/d)

Le risque relatif ne peut pas être utilisé pour l'étude cas-témoins

L'odd-ratio est très proche du risque relatif si la prévalence (le taux de survenue de la maladie) est faible

Le p-value

C'est la probabilité que le hasard puisse expliquer à lui seul une différence de pourcentage au moins aussi importante que celle observée.

Hors contexte spécifique, le p-value doit être inférieur à 5 % pour que le résultat soit considéré comme significatif.

Tests d'hypothèse - approche de Neyman et Pearson

L'hypothèse à démontrer est notée H1, la situation d'origine est notée H0. Deux risques sont identifiés :

  • alpha : c'est la probabilité d'accepter H1 alors que H0 est vrai
  • beta : c'est la probabilité d'accepter H0 alors que H1 est vrai.

Dans la pratique, seul alpha est analysé finement, avec un seuil faible : on ne teste que rarement le maintien de la situation initiale (mais ça peut arriver...).

L'approche de Fisher détermine la valeur de p, et la compare au seuil de 5 %. Elle permet de suivre l'évolution de p, sans fixer de seuil "fixe".

L'approche de Neyman et Pearson est de type binaire : soit p est inférieur à 5 %, soit il est supérieur. Elle est utilisée pour les prises de décision.

Comparaison de deux pourcentages

Test de Chi-2

Utilisable si le nombre d'individus est suffisamment élevé, et que les pourcentages ne sont ni proches de 0 %, ni de 100 %

Test exact de Fisher

Utilisable dans le cas où le test de Chi-2 ne peut être employé

Comparaison de moyennes

Test de t de Student

Conditions de validité : distribution normale et n > 30 (mais peut varier...), et variances égales dans chaque groupe

La variance peut être remplacée par l'écart-type. Au delà d'un écart de 1,5 écart-type entre les groupes comparés, le test t ne devrait pas être utilisé.

Test de Wilcoxon

Utilisable quand les conditions d'utilisation du test t de Student ne sont pas réunies. Un peu moins puissant que le précédent.

Le test ne compare pas des moyennes, mais des rangs d'individus, et donne la médiane.

Test de nullité d'une corrélation

Test de Pearson

Condition de réalisation : l'une des deux variables doit suivre une loi normale

Test de Spearman

Le test porte sur les rangs des sujets, et plus sur les observations elles-mêmes. Plus robuste, et supporte une distribution non normale des deux variables. Par contre, si des valeurs sont équivalentes (ex-aequo), le p-value ne peut être calculé de manière exacte.

Comparaisons diverses

Comparaison d'une moyenne à une référence

Permet de comparer une moyenne à une valeur de référence.

t.test(QI, mu=100) : compare le QI d'un groupe par rapport au QI de référence

Test de McNemar

Compare l'évolution de la moyenne au cours du temps pour le même groupe, pour des variables qualitatives (0 ou 1, p. e.)

Test de Student pour population appariée

Idem que précédemment, mais pour des variables quantitatives

Régression linéaire simple

Droite de régression

Droite qui minimise la somme des carré de la distance des points par rapport à celle-ci.

Régression linéaire multiple, analyse de variance

Objectif : calculer l'évolution de Y à partir de données multiples.

Exemple : durée = a + b x age + c x dep + d x subst + e x scz + bruit

La variable à expliquer (Y, ici durée) est forcément quantitative : elle est la somme de variables quantitatives ou binaires. On ne peut pas utiliser une variable qualitative non binaire. Dans ce cas, il faut recoder les variables qualitatives en variables binaires.

Par défaut, la fonction R lm recode une variable qualitative en variables binaires, si celle-ci contient des libellés.

Il est possible d'analyser la synergie de deux facteurs entre eux (dans la commande lm, remplacer le + entre deux variables par *). Dans ce cas de figure, les valeurs séparées de chaque facteur de la synergie n'ont pas de signification, et ne doivent pas être étudiées.

Analyse de variance

C'est une régression linéaire multiple où toutes les variables explicatives sont qualitatives (ou catégorielles)

Conditions de validité du test de régression

  • Normalité du bruit (par histogramme ou comparaison de la distribution du bruit par rapport à la droite correspondante - commandes qqnorm et qqline dans R
  • La variance du bruit ne doit dépendre ni des valeurs de la variable à expliquer, ni des valeurs des variables explicatives
  • Le bruit doit être un vrai bruit, sans structure de corrélation évidente

La normalité du bruit est, en pratique, le plus simple à vérifier, les autres conditions sont rarement vérifiées

Régression logistique

La régression logistique permet de de réaliser des tests de régression pour des valeurs binaires (binomiales). L'équation utilisée pour calculer la probabilité est :

log(prob(data)/1-prob(data)) = a + b x fact1 + c x fact2 + d x fact3 + ...

La commande associée, en R, est glm.

Conditions de validité de la régression logistique

  • au moins 5 à 10 événements par variable explicative. Attention aux variables qualitatives, qui sont recodées en k-1 variables (une par modalité).

Données censurées et données de survie

Quand on a une connaissance partielle d'une variable (exemple, une durée dont la borne supérieure n'est pas connue), on dit qu'une variable est censurée. Les durées sont en général censurées.

Les censures :

  • les exclus
  • les perdus de vue

La fonction de survie S(t) : pourcentage de survivants au cours du temps (ceux qui n'ont pas eu l'événement attendu)

Le risque instantané h(t) : probabilité ponctuelle.

Calcul de la fonction de survie

Méthode de Kaplan-Meier

Comparer la survie dans deux sous-groupes

test du log-rank, à assimiler à un test de rang entre les temps de décès

Conditions de validité : nombreux temps de décès ou de nombreux morts à chaque temps de décès

Tester l'association de la survie à une variable quantitative (p. e., l'âge)

Modèle de Cox

Conditions de validité :

  • Un nombre "suffisant" d'événements (5 à 10 par variable explicative)
  • vérifier l'hypothèse des risques instantanés proportionnels. Cela peut se faire avec la commande plot(cox.zph(mod2)), qui permet de tracer un graphique par variable explicative. Les courbes doivent être les plus horizontales possibles pour que la condition de validité soit vérifiée

Statistique bayesienne

La statistique bayesienne s'attache à calculer la répartition des probabilités des causes d'un événement, contrairement à la statistique classique, qui va calculer la probabilité de survenue de l'événement avec des intervalles de confiance.

Le théorème de Bayes : P(A=a|B=b) = (P( A=a).P(B=b|A=a) ) / P(B=b)

soit : la probabilité de la cause A d'un événement B est égal au produit de la probabilité de la cause multiplié par la probabilité de l'événement par la cause divisé par la probabilité de l'événement.

Le calcul ne peut être réalisé que par des moyens informatiques (P(B=b) nécessite des calculs d'intégrales). Il nécessite de plus l'estimation des conditions initiales (prior), opération complexe (quelle est la distribution préalable de la probabilité d'une cause ?). Il s'appuie fortement sur des tirages de Monte Carlo (génération aléatoire d'événements).

Cette approche est particulièrement adaptée pour manipuler des analyses à plusieurs variables, surtout si celles-ci sont bornées, et pour faire du calcul de risque. Elle nécessite toutefois de bonnes connaissances statistiques préalables.