corrigraph() une fonction pour comprendre les relations entre variables

Explorer un jeu de données en UNE SEULE figure !

Langage R - package KefiR

L'essentiel de cette page

Le package {KefiR} disponible sur github, dispose d'une fonction corrigraph() qui permet d'analyser les corrélations entre variables en réseau, mais aussi les relations entre variables numériques et non-numériques ou entre variables non-numériques. On peut aussi définir des Y à prédire et corrigraph va vous afficher les variables X (et sous variables) corrélés avec ces Y seules ou associées.

1- Installer KefiR

install.packages("devtools") ; require(devtools) # Risque d'erreur si RTools non installé.

devtools::install_github("Antoine-Masse/KefiR")

library("KefiR")

Si l'installation bloque : ne pas hésiter à passer de R-Gui (classique) à RStudio, ou l'inverse.

2- Analyser les corrélations entre variables sous la forme d'un réseau clusterisé ou non

data(swiss)

corrigraph(swiss)

On peut aussi jouer sur la taille des vertices avec l'argument ampli (qui dépend aussi du nombre de connexions).

Le type de réseau peut être modulé avec layout = "fr", "kk", "circle" ou "3d" !

BLEU : corrélation positive.

ROUGE : corrélation négative.

L'argument pval permet de définir le seuil de significativité des corrélations.

L'épaisseur est proportionnelle à la valeur de la corrélation.

3- Intégrer dans l'analyse globale du jeu de données les variables non numériques

require(MASS) ; data(Aids2)

corrigraph(Aids2 ,prop=TRUE,mu=TRUE,exclude=c(0.3,0.3,0))

Orange : lien établi par m.test (Student, et autres tests de comparaisons de moyennes/médianes).

Rose : lien établi par chisq.test (sur les effectifs croisés, Chi² d'indépendance).

4- Etablir les variables prédictives pour une ou plusieurs variables à prédire

data(swiss)

corrigraph(swiss,"Education")

On peut aussi lui faire prédire une liste de Y.

0,75 correspond au R² qu'on peut obtenir avec un modèle de régression mutiple (multi=TRUE) simple.

Vertices :

BLEU : variable à effet positif (corrélation positive)

ROUGE : variable à effet négatif

VIOLET : variable à effet positif ou négatif selon le Y considéré.

Connexions :

BLEU : corrélation positive.

ROUGE : corrélation négative.

VERTE : corrélation augmentée dans une relation Y~X1+X2,  Y~X1+X1:X2 ou Y~X1*X2 dont le BIC serait meilleur que Y~X1 ou Y~X2.

Page en construction.

Merci pour votre compréhension.