3- Analyses statistiques avec R
Voici quelques outils statistiques de base sous la forme d'un arbre de décision.
Attention : il existe d'autres méthodes (Mantel - Haenszel, Cochrane, Wilcoxon, Mc Nemar... ) qui ne sont pas expliquées ici, mais que vous retrouverez détaillés sur ce site en cliquant sur la petite loupe en haut à droite.
1- D'abord, la p-value !
Avant de faire des statistiques, je dois comprendre à quoi sert le résultat de sortie d'un test statistique : la p-value.
Pourquoi ne pas le faire de façon ludique en regardant les statistiques expliquées à mon chat ?
Ne perdons pas de vue que le but de toute p-value est de rejeter (ou non) une hypothèse nulle (H0).
L'hypothèse alternative est retenue si H0 est rejetée (p-value faible).
On ne valide jamais son hypothèse directement, on rejete en général l'hypothèse opposée.
Ex : Si je veux démontrer que les hommes sont plus grands que les femmes, je démontre que H0 (les hommes et les femmes ont la même taille) a une faible probabilité (p-value) d'être vraie au vue des résultats.
Une vidéo intéressante de Science4All pour revenir dessus (même s'il part de crédence (un mot qui n'existe pas) au lieu de crédibilité.
2- Ensuite, un arbre de décision pour faire des statistiques
Je suis étudiant. Je voudrais juste un tuto simple pour débuter en statistiques avec R et comprendre comment identifier s'il y a une dépendance entre des variables quantitatives (ex : taille, poids) et/ou des variables qualitatives/catégorielles (ex : sexe, fait d'être malade ou pas malades...).
Sinon, cet arbre ne prétend pas être exhaustif. L'arbre parfait n'existe pas et celui-là est loin de s'en rapprocher...
1- Je veux faire des opérations statistiques de base :
Je veux associer ces moyennes d'échantillons à des intervalles de confiance pour estimer la moyenne de la population ou d'une proportion
2- Je veux comparer des effectifs ou des proportions :
Je veux comparer deux pourcentages (ou deux effectifs) entre-eux ou à des valeurs théoriques : je fais un test binomial
Je veux comparer ces effectifs observés à des effectifs théoriques : je fais un ꭓ² de conformité (Chi2, Khi2)
Je veux établir le lien entre différents paramètres sur la répartition d'effectif : je fais un ꭓ² d'indépendance
Je veux comparer plusieurs moyennes, je fais un test d'ANOVA ou je mets en place une démarche de comparaison de plusieurs échantillons sur la moyenne, médiane ou autre.
Je veux définir mes catégories d'échantillons, sur un barplot par exemple, je fais un test de Newman-Keuls (et autres)...
4- J'ai des échantillons décrits par plusieurs variables et je veux en simplifier l'approche pour les distinguer
5- Je veux classifier des données définir des catégories
Je veux identifier les catégories parmi mes données : je fais un k-means ou un clustering hiérarchique
6- Je veux établir le lien entre plusieurs variables : je fais des corrélations et régressions linéaires
Visiter la page pour voir comment ajouter les techniques de machine learning à votre discipline comme les biostatistiques par exemple.
Projet de rédactions :
Corrélation de Spearman : quand il faut établir une corrélation entre deux variables qui ont une relation non affine, monotone.
Les probabilités - http://beginr.u-bordeaux.fr/part4-proba.html
Loi de gauss et loi de Student
# fonctions quantiles
qnorm(0.95, 2, 1.2)
# circonférence de arbre ~ N(30, 2)
abscisses <- seq(25, 35, length.out=40)
# densité
ordonnees <- dnorm(abscisses, 30, 2)
plot(abscisses, ordonnees, type='l', lwd=2, col='blue')
qnorm(0.025, 30,2)
qnorm(0.975, 30,2)
##
# t = loi de student
pt(1.2, 3)