L'objectif général de la régression multiple (le terme a été utilisé initialement par Pearson, 1908) est d'en savoir plus sur la relation entre plusieurs variables indépendantes ou prédictives et une variable dépendante ou de critère. Par exemple, un agent immobilier peut enregistrer pour chaque programme, la taille de la maison (en mètres carrés), le nombre de pièces, le revenu moyen du voisinage respectif, et un taux subjectif de "charme" de la maison. Une fois cette information collectée pour diverses maisons, il peut être intéressant de voir si ces mesures sont liées au prix de vente de la maison. Par exemple, on peut apprendre que le nombre de pièces est un meilleur indicateur de prévision du prix de vente d'une maison dans un quartier, plutôt que son aspect extérieur (indicateur subjectif). On peut également détecter des points "atypiques", c'est-à-dire des maisons qui pourraient être vendues à un prix plus élevé, compte tenu de leur localisation et de leurs caractéristiques.
Les départements des "ressources humaines" utilisent habituellement des procédures de régression multiple afin de déterminer la rémunération équitable. On peut déterminer un certain nombre de facteurs ou de dimensions comme la "charge de responsabilités" (Resp) ou le "nombre de personnes à encadrer" (Nb_Encad) que l'on estime contribuer à la valeur d'un poste. Le chargé d'études des ressources humaines va alors mener une étude salariale sur des entreprises comparables du secteur ou de la branche, en enregistrant les salaires et les caractéristiques respectives (c'est-à-dire les valeurs sur les dimensions) pour des différentes positions. Cette information peut être utilisée dans une analyse de régression multiple afin de construire une équation de régression du type :
Salaire = 0,5 * Resp + 0,8 * Nb_Encad
Une fois la droite de régression déterminée, le chargé d'études pourra alors aisément construire un graphique des salaires attendus (prévus) et des véritables salaires en fonction de la mission, dans sa propre entreprise. Ainsi, le chargé d'études sera à même de déterminer les postes qui sont "sous-payés" (au-dessous de la droite de régression), ceux qui sont "surpayés" (au dessus de la droite de régression), ou ceux qui sont "payés" équitablement.
En sciences naturelles et sociales, des procédures de régression multiple sont largement utilisées en recherche. En général, la régression multiple permet au chercheur de se poser la question générale (et avec un peu de chance, d'y répondre) "quel est le meilleur indicateur permettant de prévoir ...". Par exemple, des chercheurs du domaine éducatif peuvent souhaiter en savoir plus sur les indicateurs qui permettent le mieux de prévoir la réussite au baccalauréat. Les psychologues peuvent vouloir déterminer les variables de personnalité qui prévoient le mieux la mobilité sociale. Des sociologues peuvent s'intéresser aux multiples indicateurs sociaux permettant de prévoir au mieux si tel ou tel groupe d'immigrants risque de bien s'adapter, et donc de s'intégrer dans la société.
Le problème statistique général qui se pose dans une régression multiple consiste à ajuster une droite sur un certain nombre de points.
Dans le cas le plus simple -- une variable dépendante et une variable indépendante -- nous pouvons représenter peut les visualiser dans un nuage de points (vous pouvez créer des nuages de points automatiquement à partir de la feuille de données des corrélations, en sélectionnant la commande Graphique des Données d'Entrée - Nuage de Points dans le menu contextuel de la cellule souhaitée).
Dans un nuage de points, il y a une variable indépendante X et une variable dépendante Y. Ces variables peuvent, par exemple, représenter le QI (intelligence mesurée lors d'un test) et la réussite scolaire (mesurée par la moyenne générale en fin d'année, MGFA), respectivement. Chaque point du tracé représente un étudiant, c'est-à-dire le QI et la MGFA de l'étudiant respectif. Le but des procédures de régression linéaire est d'ajuster une droite sur ces points. Plus précisément, le programme va calculer une droite de sorte que les écarts au carré entre les points observés et cette droite soient minimisés. C'est la raison pour laquelle cette procédure générale est parfois appelée estimation des moindres carrés
Une droite dans un espace à deux dimensions (ou à deux variables) est définie par l'équation Y=a+b*X ; en d'autres termes : la variable Y peut s'exprimer par une constante (a) et une pente (b) multipliée par la variable X. La constante est également appelée ordonnée à l'origine et la pente, coefficient de régression ou coefficient B. Par exemple, nous pouviosn prévoir la moyenne générale d'un étudiant par l'équation 3+0,1*QI. Ainsi, sachant qu'un étudiant possède un QI de 130, nous pouvons en déduire que sa moyenne générale sera de 16 sur 20 (puisque, 3+0,1*130=16). Dans le cas multivarié, lorsqu'il existe plusieurs variables indépendantes, la droite de régression ne peut être représentée dans un espace à deux dimensions, mais nous pouvons la calculer de la même manière (grâce au module Régression Multiple ; les calculs sont en fait assez complexes). Par exemple, outre le QI, nous pouvons ajouter d'autres indicateurs permettant de prévoir la réussite (par exemple, la Motivation, l'Auto-discipline). Nous pourrions construire une équation linéaire comportant toutes ces variables. D'une manière générale, les procédures de régression multiple vont estimer une équation linéaire de la forme :
Y=a+b1*X1+b2*X2+...+bp*Xp
Remarque : dans cette équation, les coefficients de régression (ou coefficients B) représentent les contributions indépendantes de chaque variable indépendante à la prévision de la variable dépendante. En d'autres termes, on peut dire par exemple, que la variable X1 est corrélée avec la variable Y, après contrôle de toutes les autres variables indépendantes. Ce type de corrélation est également appelé corrélation partielle (ce terme a été initialement utilisé par Yule, 1907). Peut-être l'exemple suivant va-t-il permettre de clarifier notre propos. Nous pourrions probablement trouver une corrélation négative significative entre la longueur des cheveux et la taille dans la population (c'est-à-dire que les individus petits ont plutôt tendance à avoir les cheveux plus longs). À première vue, ce résultat peut sembler surprenant ; toutefois, si nous ajoutons dans notre équation de régression multiple la variable Sexe, cette corrélation disparaîtra sans doute. En effet, les femmes ont en moyenne de plus longs cheveux que les hommes ; et elles sont également plus petites en moyenne que les hommes. Par conséquent, après avoir supprimé cette différence due au sexe en entrant la variable Sexe dans notre équation, la relation entre la longueur des cheveux et la taille disparaîtra puisque la longueur des cheveux n'a pas de contribution unique à la prévision de la taille, mais elle la partage avec la variable Sexe. En d'autres termes, après contrôle de la variable Sexe, la corrélation partielle entre la longueur des cheveux et la taille est nulle.
La droite de régression exprime la meilleure prévision de la variable dépendante (Y), compte tenu des variables indépendantes (X). La nature étant rarement parfaitement prévisible (si toutefois elle l'est), il existe souvent des écarts substantiels entre les points observés autour de la droite de régression ajustée (comme dans le nuage de points donné précédemment). L'écart d'un point particulier à la droite de régression (sa valeur prévue) est appelé résidu.
Plus faible sera la dispersion des résidus autour de la droite de régression par rapport à la dispersion relative globale, meilleure sera notre prévision. Par exemple, s'il n'y a pas de relation entre les variables X et Y, le ratio entre la dispersion des résidus de la variable Y et la variance initiale sera égal à 1,0. Si X et Y sont parfaitement dépendantes, il n'y aura aucune variance des résidus et le ratio des variances sera égal à 0,0. Dans la plupart des cas, le ratio se situera entre ces deux extrêmes, c'est-à-dire entre 0 et 1. 1,0 moins ce ratio est appelé R² ou coefficient de détermination. Cette valeur est immédiatement interprétable de la manière suivante. Si nous avons un R² de 0,4, nous savons que la dispersion des valeurs de Y autour de la droite de régression est 1-0,4 fois la variance initiale ; en d'autres termes, nous avons expliqué 40% de la dispersion initiale, et il reste 60% de dispersion résiduelle. Dans l'idéal, nous souhaitons expliquer le plus possible, voire toute la dispersion initiale. La valeur du R² est un indicateur de la qualité d'ajustement du modèle aux données (par exemple, un R² proche de 1,0 indique que nous avons réussi à expliquer quasiment toute la dispersion grâce aux variables spécifiées dans le modèle).
Habituellement, l'intensité de la relation entre deux prédicteurs ou plus (variables indépendantes ou X) et la variable dépendante (Y) s'exprime par le coefficient de corrélation R, qui est la racine carrée du R². En régression multiple, R peut prendre des valeurs comprises entre -1 et 1. Pour interpréter le sens de la relation entre des variables, il faut examiner le signe (plus ou moins) de la régression ou des coefficients B. Si un coefficient B est positif, la relation entre cette variable et la variable dépendante est positive (par exemple, plus le QI sera fort et meilleure sera la note moyenne en fin d'année) ; si le coefficient B est négatif, la relation sera négative (par exemple, plus l'effectif de la classe sera faible et meilleure sera la note moyenne en fin d'année). Naturellement, si le coefficient B est égal à 0, il n'y aura aucune relation entre les variables.
Tout d'abord, il semble évident en regardant simplement le nom de la régression linéaire multiple, que la relation entre les variables est linéaire. En pratique, cette hypothèse n'est quasiment jamais vérifiée ; heureusement, les procédures de régression multiple ne sont pas fortement affectées par des écarts mineurs à cette hypothèse. Toutefois, il est prudent de toujours examiner le nuage de points bivarié des variables étudiées. Le module Régression Multiple vous permet d'accéder simplement à ces tracés en affichant la feuille de données de la matrice de corrélations, puis en traçant le graphique défini (nuage de points) grâce à un menu contextuel sur la cellule souhaitée, menu contextuel à partir duquel vous pouvez sélectionner la commande Graphique des Données d'Entrée -- Nuage de Points. S'il existe visiblement une relation non-linéaire (courbe), vous pouvez soit envisager une transformation des variables (grâce à STATISTICA Visual Basic ou aux formules de la feuille de données), soit permettre explicitement des composantes non-linéaires. Utilisez le module Régression Non-Linéaire Fixe pour ajuster diverses composantes non-linéaires, c'est-à-dire de tester explicitement la significativité d'une composante non-linéaire dans la relation entre deux ou plusieurs variables (d'autres options de régression non-linéaire sont disponibles dans le module Régression Non-Linéaire).
Dans la régression multiple, on suppose que les résidus (valeurs théoriques moins observées) sont distribués normalement (c'est-à-dire qu'ils suivent la loi normale). À nouveau, bien que la plupart des tests (et particulièrement le test du F) soient assez robustes par rapport aux violations de cette hypothèse, il est toujours bon, avant de tirer des conclusions, d'examiner les distributions des principales variables étudiées. Dans le module Régression Multiple, il est possible de produire un histogramme (avec une courbe Normale superposée) dans la feuille de données des statistiques descriptives, accessible à tout moment dans le programme par l'option Statistiques Descriptives du module Statistiques Élémentaires. En outre, vous pouvez produire des histogrammes des résidus ainsi que des tracés de loi normale, afin d'inspecter la distribution des résidus.
La régression multiple est une technique séduisante : introduisez toutes les variables prédictives auxquelles vous pouvez penser et dans la plupart des cas, vous en obtiendrez au moins quelques unes qui seront significatives. C'est parce que l'on tire simplement parti de la chance en incorporant autant de variables que possible comme prédicteurs de la variable étudiée. Ce problème est encore plus complexe lorsque le nombre d'observations est relativement faible. Intuitivement, il est clair qu'il s'avère difficile de tirer des conclusions à partir de l'analyse de questionnaires comportant 100 questions basées sur 10 répondants. La plupart des auteurs recommandent de prendre au moins 10 ou 20 fois plus d'observations (répondants) que de variables, sinon les estimations de la droite de régression risquent d'être très instables et difficiles à répliquer lors d'une nouvelle étude.
Il s'agit d'un problème courant dans de nombreuses analyses de corrélations. Imaginez que vous disposiez de deux variables indépendantes (variables X) pour prévoir la taille des individus : (1) le poids en kilogrammes et (2) le poids en livres. Vos deux variables sont bien évidemment totalement redondantes ; le poids est une seule et même variable, quelle que soit l'unité de mesure utilisée, kilogrammes ou livres. Chercher à savoir laquelle des deux mesures donnera la meilleure prévision n'a aucun sens ; toutefois, c'est exactement ce que nous ferions si nous réalisions une régression multiple avec la taille comme variable dépendante (Y) et les deux mesures de poids comme variables indépendantes (X). Avec nombreuses variables, on s'aperçoit rarement de ce problème immédiatement, qui peut ne se produire qu'après l'introduction de plusieurs variables dans l'équation de la régression. Néanmoins, lorsque ce problème se produit, au moins une des variables prédictives est (pratiquement) complètement redondante avec d'autres.
La régression multiple est complexifiée par la présence de multicolinéarité. En effet, la majorité des études mettent en jeu des variables explicatives qui sont corrélées. Une méthode simple pour détecter une trop grande corrélation entre variables indépendantes consiste à demander des tests de colinéarité : tolérance et facteur d’inflation de la variance (VIF).
La tolérance est définie comme la part de variabilité de la variable indépendante qui n’est pas expliquée par une ou d’autres variables indépendantes. Une tolérance élevée correspond à un faible degré de colinéarité. Le seuil de 0,3 est recommandé. À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit être faible : < 3.