L'intervalle de confiance s'applique à une distribution sous forme de loi normale, à partir d'un échantillonnage aléatoire. L'intervalle de confiance à 95 % est intervalle de valeurs qui à 95 % de chance de contenir la vraie valeur du paramètre estimé.
Le coefficient de corrélation s'applique sur une distribution en loi normale. Il indique que deux variables peuvent être liées par une relation de causalité. Il varie de -1 à 1, la valeur 0 signifiant que les deux variables sont indépendantes (en loi normale).
Soit le tableau suivant :
Le risque relatif est le rapport (a/(a+b)) / (c/(c+d))
L'odd-ratio vaut (a/b)/(c/d)
Le risque relatif ne peut pas être utilisé pour l'étude cas-témoins
L'odd-ratio est très proche du risque relatif si la prévalence (le taux de survenue de la maladie) est faible
C'est la probabilité que le hasard puisse expliquer à lui seul une différence de pourcentage au moins aussi importante que celle observée.
Hors contexte spécifique, le p-value doit être inférieur à 5 % pour que le résultat soit considéré comme significatif.
L'hypothèse à démontrer est notée H1, la situation d'origine est notée H0. Deux risques sont identifiés :
Dans la pratique, seul alpha est analysé finement, avec un seuil faible : on ne teste que rarement le maintien de la situation initiale (mais ça peut arriver...).
L'approche de Fisher détermine la valeur de p, et la compare au seuil de 5 %. Elle permet de suivre l'évolution de p, sans fixer de seuil "fixe".
L'approche de Neyman et Pearson est de type binaire : soit p est inférieur à 5 %, soit il est supérieur. Elle est utilisée pour les prises de décision.
Utilisable si le nombre d'individus est suffisamment élevé, et que les pourcentages ne sont ni proches de 0 %, ni de 100 %
Utilisable dans le cas où le test de Chi-2 ne peut être employé
Conditions de validité : distribution normale et n > 30 (mais peut varier...), et variances égales dans chaque groupe
La variance peut être remplacée par l'écart-type. Au delà d'un écart de 1,5 écart-type entre les groupes comparés, le test t ne devrait pas être utilisé.
Utilisable quand les conditions d'utilisation du test t de Student ne sont pas réunies. Un peu moins puissant que le précédent.
Le test ne compare pas des moyennes, mais des rangs d'individus, et donne la médiane.
Condition de réalisation : l'une des deux variables doit suivre une loi normale
Le test porte sur les rangs des sujets, et plus sur les observations elles-mêmes. Plus robuste, et supporte une distribution non normale des deux variables. Par contre, si des valeurs sont équivalentes (ex-aequo), le p-value ne peut être calculé de manière exacte.
Permet de comparer une moyenne à une valeur de référence.
t.test(QI, mu=100) : compare le QI d'un groupe par rapport au QI de référence
Compare l'évolution de la moyenne au cours du temps pour le même groupe, pour des variables qualitatives (0 ou 1, p. e.)
Idem que précédemment, mais pour des variables quantitatives
Droite qui minimise la somme des carré de la distance des points par rapport à celle-ci.
Objectif : calculer l'évolution de Y à partir de données multiples.
Exemple : durée = a + b x age + c x dep + d x subst + e x scz + bruit
La variable à expliquer (Y, ici durée) est forcément quantitative : elle est la somme de variables quantitatives ou binaires. On ne peut pas utiliser une variable qualitative non binaire. Dans ce cas, il faut recoder les variables qualitatives en variables binaires.
Par défaut, la fonction R lm recode une variable qualitative en variables binaires, si celle-ci contient des libellés.
Il est possible d'analyser la synergie de deux facteurs entre eux (dans la commande lm, remplacer le + entre deux variables par *). Dans ce cas de figure, les valeurs séparées de chaque facteur de la synergie n'ont pas de signification, et ne doivent pas être étudiées.
C'est une régression linéaire multiple où toutes les variables explicatives sont qualitatives (ou catégorielles)
La normalité du bruit est, en pratique, le plus simple à vérifier, les autres conditions sont rarement vérifiées
La régression logistique permet de de réaliser des tests de régression pour des valeurs binaires (binomiales). L'équation utilisée pour calculer la probabilité est :
log(prob(data)/1-prob(data)) = a + b x fact1 + c x fact2 + d x fact3 + ...
La commande associée, en R, est glm.
Quand on a une connaissance partielle d'une variable (exemple, une durée dont la borne supérieure n'est pas connue), on dit qu'une variable est censurée. Les durées sont en général censurées.
Les censures :
La fonction de survie S(t) : pourcentage de survivants au cours du temps (ceux qui n'ont pas eu l'événement attendu)
Le risque instantané h(t) : probabilité ponctuelle.
Méthode de Kaplan-Meier
test du log-rank, à assimiler à un test de rang entre les temps de décès
Conditions de validité : nombreux temps de décès ou de nombreux morts à chaque temps de décès
Modèle de Cox
Conditions de validité :
plot(cox.zph(mod2))
, qui permet de tracer un graphique par variable explicative. Les courbes doivent être les plus horizontales possibles pour que la condition de validité soit vérifiéeLa statistique bayesienne s'attache à calculer la répartition des probabilités des causes d'un événement, contrairement à la statistique classique, qui va calculer la probabilité de survenue de l'événement avec des intervalles de confiance.
Le théorème de Bayes : P(A=a|B=b) = (P( A=a).P(B=b|A=a) ) / P(B=b)
soit : la probabilité de la cause A d'un événement B est égal au produit de la probabilité de la cause multiplié par la probabilité de l'événement par la cause divisé par la probabilité de l'événement.
Le calcul ne peut être réalisé que par des moyens informatiques (P(B=b) nécessite des calculs d'intégrales). Il nécessite de plus l'estimation des conditions initiales (prior), opération complexe (quelle est la distribution préalable de la probabilité d'une cause ?). Il s'appuie fortement sur des tirages de Monte Carlo (génération aléatoire d'événements).
Cette approche est particulièrement adaptée pour manipuler des analyses à plusieurs variables, surtout si celles-ci sont bornées, et pour faire du calcul de risque. Elle nécessite toutefois de bonnes connaissances statistiques préalables.