Modèles mixtes sous R

Construction, Validation, Interprétation

L'essentiel de cette page

Lorsque l'on souhaite modéliser les effets des variables explicatives X sur une variable dépendante Y, l'on doit parfois tenir compte des sous-catégories. Plus simplement :

Effet en fonction du temps : la note que l'on obtient Y dépend peut-être du temps que l'on travaille, mais avec le temps cette relation devient moins vrai jusqu'à montrer un effet contre productif du temps. On doit donc corriger l'effet du temps pour visualiser l'effet du travail sur Y.
Effet des catégories : peut-être que certains étudiants viennent d'établissement où l'on leur a appris une bonne méthode de travail et dans ce cas le travail paye, mais pour d'autres, le travail n'aurait pas d'effet bénéfique ou très peu.

Ainsi, les modèles mixtes se prêtent au-delà de l'ANOVA à modéliser des relations entre variables (effets fixes) en corrigent les effets de variables aléatoires - catégories ou temps - (effets aléatoires).

Une page en construction, désolé pour le dérangement, j'y travaille, je copie, je colle et je la relie aux autres sujets.

valreg() est déjà en ligne. Vous pouvez le tester pour valider vos modèles mixtes !

En projet : intégrer aussi la validation des modèles de régression logistique : résidus, matrice de confusion (FP, FN), AUC, test de Hosmer-Lemeshow...

0- Simulons des données pour s'entraîner (code à copier-coller)

1- Construire un modèle mixte

Effets Aléatoires Simples :
model <- lmer(y ~ x + (1 | group), data = data)

Effets Aléatoires avec Pentes Aléatoires :
model <- lmer(y ~ x + (x | group), data = data)

Effets Aléatoires Simples : Utilisés pour modéliser des variations spécifiques des intercepts entre les groupes. Les pentes restent constantes entre les groupes.

Pentes Aléatoires : Utilisées pour modéliser des variations spécifiques des intercepts et des pentes entre les groupes. Cela permet de capturer des relations différentes entre les prédicteurs et la réponse au sein de chaque groupe.

2- Valider un modèle mixte

Tout comme un modèle linéaire classique obtenu avec lm(), de nombreuses hypothèses doivent être vérifiées pour valider un modèle mixte et s'assurer qu'il ne nous conduise pas à des conclusions erronées.

Contrôler la pertinence d'avoir une combinatoire d'effets fixes et aléatoires.
Normalité des Erreurs et des Effets Aléatoires : tests de normalité.
Homogénéité des Variances (Homoscédasticité) des résidus : test de Breush-Pagan.
Indépendance des Erreurs : test de Durbin-Watson.
Effets leviers en faisant appel à la distance de Cook.

Certains parlent aussi de contrôle de la linéarité en testant des modèles polynomiaux, mais l'approche est dure à consolider.

Tous ces points peuvent être contrôlés avec la fonction valreg() du package {KefiR} que l'on peut installer de la façon suivante :

install.packages("remotes") ; require(remotes)

remotes::install_github("Antoine-Masse/KefiR",force=TRUE)

# Répondre à la question (ou CRAN (2) ou,mieux None (3)).

library("KefiR")

Contrôler la pertinence d'avoir une combinatoire d'effets fixes et aléatoires.

Une fonction utile ranova().

2. Normalité des Erreurs et des Effets Aléatoires

Le normalité des résidus peut se contrôler grâce aux fonctions resid() et au test de Shapiro-Wilk et autres tests de normalité selon le nombre de mesures.

La normalité des effets aléatoires peut se contrôler pour chaque variable aléatoire, il peuvent être récupérés avec ranef().

Lorsque l'on utilise la fonction valreg()

library(lme4)

data("sleepstudy", package = "lme4")

# Ajuster un modèle mixte

model <- lmer(Reaction ~ Days + (1 | Subject), data = sleepstudy)

library(performance)

check_model(model)

3- Interpréter un modèle mixte, déterminer l'effet fixe et l'effet aléatoire

relation asymétrique entre variables.

Contexte

Nous analysons la relation entre les notes des étudiants et les heures d'étude, en tenant compte de l'effet de la classe.

Modèles

Note ~ Heures d'étude + Effet aléatoire (classe)
- Les heures d'étude ne sont pas significatives.
- Les notes des étudiants dépendent principalement de la classe, pas des heures d'étude.
Note ~ Effet aléatoire (classe)
- Ce modèle est aussi performant que le précédent.
- Les heures d'étude n'apportent pas de valeur explicative supplémentaire.
Heures d'étude ~ Note + Effet aléatoire (classe)
- Les notes sont significatives.
- Les heures d'étude des étudiants sont influencées par leurs notes.
Heures d'étude ~ Effet aléatoire (classe)
- Ce modèle est moins performant que le précédent.
- Les notes améliorent la prédiction des heures d'étude.

Interprétation

Notes influencées par la classe : Les notes dépendent surtout des différences entre les classes (qualité de l'enseignement, soutien académique).
Heures d'étude influencées par les notes : Les étudiants ajustent leur temps d'étude en fonction de leurs performances.

Conclusion

Les notes influencent les heures d'étude, mais les heures d'étude n'ont pas un impact significatif sur les notes. Les modèles mixtes révèlent ces dynamiques en tenant compte des variations entre les classes.

La distance de Cook est un outil important pour diagnostiquer les observations influentes dans les modèles de régression, y compris les modèles mixtes. Voici quelques points clés issus de la recherche sur la pertinence de la distance de Cook dans les modèles mixtes :

Adaptation aux modèles complexes : La distance de Cook a été adaptée pour les modèles paramétriques complexes, tels que les modèles de données longitudinales et les modèles mixtes. Une approche stochastique est utilisée pour quantifier la relation entre le degré de perturbation introduit par la suppression d'un sous-ensemble d'observations et la magnitude de la distance de Cook (Zhu et al., 2012).
Modèles linéaires mixtes généralisés : La distance de Cook a été étendue aux modèles linéaires mixtes généralisés pour identifier les observations ayant une influence élevée sur les moyennes conditionnelles prédites de la variable réponse. Cette extension permet de distinguer l'influence sur l'estimation des effets fixes et la prédiction des effets aléatoires (Pinho et al., 2015).
Modèles longitudinaux : L'application de la distance de Cook dans les modèles à effets fixes pour les données longitudinales montre que cette statistique est dominée par les effets des paramètres de nuisance, limitant ainsi son efficacité en tant que mesure d'influence (Banerjee, 1998).
Modèles à coefficients variables : Les mesures de la distance de Cook ont été développées pour les modèles à coefficients variables avec réponses fonctionnelles. Ces mesures incluent la suppression de multiples courbes et points de grille, et leurs distances de Cook mises à l'échelle (Gao et al., 2015).

En conclusion, la distance de Cook est un outil pertinent et adaptable pour les modèles mixtes, permettant d'identifier les observations influentes et de distinguer les effets des paramètres fixes et aléatoires.

R² marginaux

Google Sites

Report abuse