Ce chapitre introduit les outils de base pour la description graphique et numérique de la relation entre deux variables quantitatives. Les méthodes qui étudient la relation entre deux variables sont parmi les plus importantes en statistique. Elles s’étendent `a l’étude de la relation entre plusieurs variables. Nous considérons un échantillon de taille n et les valeurs observées x1, . . ., xn et y1, . . . , yn de deux variables quantitatives X et Y. Chaque paire (xi, yi) appartient à un seul cas (individu ou unité observée). Nous supposons que le nombre de modalités de X et de Y soit élevé, comme dans le cas de variables continues.
1. Diagramme de dispersion
Le diagramme de dispersion (ou diagramme X/Y ) est la représentation dans le plan X/Y des points ayant comme coordonnées les paires de valeurs (xi, yi). Il sert à établir visuellement s’il y a une association entre les deux variables représentées.
Exemple. La Taille et le Poids des 45 étudiants sont représentées dans le diagramme ci-dessous.
Diagramme Taille/Poids pour l’échantillon de 45 étudiants
Il est recommandé de repérer les points éloignés par rapport `a la majorité. Ces points sont des outliers. Ils peuvent indiquer des fautes dans les données codées ou des cas exceptionnels (comportements biologiques atypiques) qui méritent une attention particulière. Si les points appartiennent `a plusieurs catégories (par exemple, fille/garçon – f/m dans la figure) il est recommandé de les distinguer par des signes différents.
Dans l’exemple, on observe globalement une légère association entre la taille et le poids: des tailles élevées sont fréquemment associées à des poids relativement élevés. Toutefois, cette association est moins visible si on considère séparément les garçons et les filles: elle est donc en partie expliquée par la présence des deux sexes dans l’échantillon. L’individu no 20 a un poids exceptionnel.
2- Covariance
Une première synthèse numérique de l’association entre X et Y est donnée par le coefficient de covariance défini par:
3- Corrélation
4- Régression simple