3- Analyses statistiques avec R

Voici quelques outils statistiques de base sous la forme d'un arbre de décision.

Attention : il existe d'autres méthodes (Mantel - Haenszel, Cochrane, Wilcoxon, Mc Nemar... ) qui ne sont pas expliquées ici, mais que vous retrouverez détaillés sur ce site en cliquant sur la petite loupe en haut à droite.

1- D'abord, la p-value !

Avant de faire des statistiques, je dois comprendre à quoi sert le résultat de sortie d'un test statistique : la p-value.

Pourquoi ne pas le faire de façon ludique en regardant les statistiques expliquées à mon chat ?

Ne perdons pas de vue que le but de toute p-value est de rejeter (ou non) une hypothèse nulle (H0).

L'hypothèse alternative est retenue si H0 est rejetée (p-value faible).

On ne valide jamais son hypothèse directement, on rejete en général l'hypothèse opposée.

Ex : Si je veux démontrer que les hommes sont plus grands que les femmes, je démontre que H0 (les hommes et les femmes ont la même taille) a une faible probabilité (p-value) d'être vraie au vue des résultats.

Une vidéo intéressante de Science4All pour revenir dessus (même s'il part de crédence (un mot qui n'existe pas) au lieu de crédibilité.

2- Ensuite, un arbre de décision pour faire des statistiques

Je suis étudiant. Je voudrais juste un tuto simple pour débuter en statistiques avec R et comprendre comment identifier s'il y a une dépendance entre des variables quantitatives (ex : taille, poids) et/ou des variables qualitatives/catégorielles (ex : sexe, fait d'être malade ou pas malades...).

Un tuto simple pour débuter dans l'étude d'un jeu de données : c'est ici.

Sinon, cet arbre ne prétend pas être exhaustif. L'arbre parfait n'existe pas et celui-là est loin de s'en rapprocher...

1- Je veux faire des opérations statistiques de base :

Je veux décrire mes données : quartiles, corrélations, écart-type, variance

Je veux calculer la moyenne la plus pertinente : moyenne, moyenne mobile par itération, médiane

Je veux associer ces moyennes d'échantillons à des intervalles de confiance pour estimer la moyenne de la population ou d'une proportion

2- Je veux comparer des effectifs ou des proportions :

Je veux comparer deux pourcentages (ou deux effectifs) entre-eux ou à des valeurs théoriques : je fais un test binomial

Je veux comparer ces effectifs observés à des effectifs théoriques : je fais un ꭓ² de conformité (Chi2, Khi2)

Je veux établir le lien entre différents paramètres sur la répartition d'effectif : je fais un ꭓ² d'indépendance

Je veux comparer la répartition plusieurs effectifs observés : je fais un ꭓ² d'homogénéité

3- Je veux comparer des moyennes ou des médianes :

Je veux comparer une moyenne théorique à une observée, je fais un test de Student (t de Student)

Je veux comparer deux moyennes entre elles : je fais un t de Student

Je veux comparer plusieurs moyennes, je fais un test d'ANOVA ou je mets en place une démarche de comparaison de plusieurs échantillons sur la moyenne, médiane ou autre.

Je veux définir mes catégories d'échantillons, sur un barplot par exemple, je fais un test de Newman-Keuls (et autres)...

4- J'ai des échantillons décrits par plusieurs variables et je veux en simplifier l'approche pour les distinguer

Je fais une Analyse en Composante Principale (ACP, syn. PCA)

J'ai des catégories et je veux creuser la différence entre : je fais une projection de Fischer (LDA, Analyse Discriminante Linéaire)

5- Je veux classifier des données définir des catégories

Je veux identifier les catégories parmi mes données : je fais un k-means ou un clustering hiérarchique

J'ai déjà des catégories et je veux les visualiser simplement : il y a des outils

6- Je veux établir le lien entre plusieurs variables : je fais des corrélations et régressions linéaires

3- Statistical learning, machine learning ou intelligence artificielle

Visiter la page pour voir comment ajouter les techniques de machine learning à votre discipline comme les biostatistiques par exemple.

Projet de rédactions :

Corrélation de Spearman : quand il faut établir une corrélation entre deux variables qui ont une relation non affine, monotone.
Les probabilités - http://beginr.u-bordeaux.fr/part4-proba.html
- Loi de gauss et loi de Student

# fonctions quantiles

qnorm(0.95, 2, 1.2)

# circonférence de arbre ~ N(30, 2)

abscisses <- seq(25, 35, length.out=40)

# densité

ordonnees <- dnorm(abscisses, 30, 2)

plot(abscisses, ordonnees, type='l', lwd=2, col='blue')

qnorm(0.025, 30,2)

qnorm(0.975, 30,2)

# t = loi de student

pt(1.2, 3)