Test de Tukey et PPDS

en langage R


Le test de Tukey est un test statistique utilisé après une ANOVA pour comparer les moyennes de plusieurs groupes de données. Il permet de trouver les moyennes qui sont significativement différentes entre elles, en examinant toutes les paires possibles de moyennes avec une méthode semblable à un test t. Il est aussi appelé test de Tukey HSD (honestly significant difference) ou test d’additivité de Tukey.

Toutefois, certaines sources privilégient le test de Newman-Keuls qui minimise le nombre de tests. Ce test est considéré comme plus puissant (il détecte mieux les différences significatives) et moins conservateur (il détecte de fausses différences significatives (erreur de type 1)) que le test de Tukey (qui, lui fait des erreurs de type 2 en en rejetant pas l'hypothèse nulle à tort).

Le test HSD de Tukey, également appelé test de la différence vraiment significative, s’appuie sur la statistique d’écart studentisée q. Pour le test HSD de Tukey, on fait comme si toutes les comparaisons avaient le nombre maximum d’échelons possibles 2 : on part dans le raisonnement d'une distance maximale établi entre la plus petite moyenne et la plus grande, chaque moyenne est comparée comme si ces deux moyennes pouvaient être la plus grande et la plus petite dans l'ensemble des moyennes à comparer.

# Charger le package agricolae

library(agricolae)

# Exemple de données

data(iris)

# Le test de Bartlett vérifie que les échantillons ont des variances comparables. Si p-value > 0.05, on peut continuer le scénario, sinon, il faudra penser à oneway.test() ou fanova.hetero().

bartlett.test(iris$Sepal.Width , iris$Species)

# Effectuer une ANOVA pour vérifier qu'un échantillon diffère - Si p-value < 0.05, on continue.

model <- aov(Sepal.Width ~ Species, data = iris) ; summary(model)

# Test post-hoc - Effectuer un test de Tukey

HSD.test(model, "Species", group = TRUE) -> myhsd


myhsd$groups

Détaillons un peu les sorties de ce test pour obtenir le MSD.

Le MSD (minimum significant difference) ou PPDS (plus petite différence significative) est une mesure de la probabilité qu’une différence observée entre deux groupes soit réelle et non due au hasard. C'est ce que fait le test de Tukey.

Il s'agit d'une valeur qui permet de savoir si deux moyennes sont significativement différentes avec des données de plusieurs groupes. Si µi-µj>ppds --> Ho rejetée.

On peut aussi extraire une valeur seuil de PPDS qui va nous aider à établir un seuil pour lequel on consdérera nos moyennes d'échantillons comme différentes.

myhsd$statistics

On peut aussi déduire le MSD à partir du test de Newman-Keuls en l'assimilant à la plus petite différence de moyenne constatée entre deux groupes significatifs.