Ce TD TP est dedie a la regression puis a d'autres questions sur la dependance et l'independance.
01- Avec l'assistant tableau croisé dynamique, créer le tableau croisé présentant le nombre d'emplois occupés en fonction de la durée totale de chômage (variable recodée)
Réponse: c'est une question que l'on a déjà regardée dans le TD précédent.
02- A partir de ce tableau (coller en valeur), calculer les moyennes et les variances marginales, les moyennes et les variances conditionnelles. Commenter les résultats obtenus.
Réponse: On trouve ceci
03- Calculer la covariance
Réponse: On utilise la formule moyenne des produits moins produit des moyennes.
04(05)- Vérifier que la variance de x (y) est égale à la moyenne des variances conditionnelles de x augmentée de la variance des moyennes
Réponse: ces deux questions ont déjà été traitées au TDTP3 précédent
06- Tracer les courbes de regression
Reponse: on a déjà traité cette question dans le TDTP précédent.
09- Calculer la droite de regression.
Reponse: On cherche les coefficients a et b de la droite y=qx+b. On utilise la formule du cours: a=covariance/variance de x et b=moyenne de y-a moyenne de x.
10- Calculer le coefficient de corrélation linéaire
Reponse: C'est la covariance divisée par le produit des écart-types: Je ne m'étends pas ...
11- En déduire les rapports de corrélation
Reponse: alors attention, les rapports de corrélations sont la pour voir l'influence des variables qualitatives sur des variables quantitatives. On va donc changer notre fusil d'épaule et considérer que le nombre de jobs est une variable qualitative. La définition est la suivante
Dans cette definition, la moyenne indicée par k est la moyenne conditionnelle sachant que le nombre de jobs est egal a k. La moyenne sans indice est la moyenne globale, qui est (revoir la question 7 plus haut !), la moyenne pondérée des moyennes conditionnelles (ou les pondérations sont les fréquences associées aux valeurs prises par k).
On calcule alors le numérateur comme suit (regardez dans la fenêtre en haut comment est utilisée la fonction "sumproduct"):
Le denominateur se calcule comme n total fois la variance marginale des x. On trouve alors:
Les deux variables sont donc "très faiblement liés" ...
12- Calculer le tableau de l'indépendance.
Réponse: rappelons les valeurs du tableau contenant les fréquences totales:
Le tableau d'indépendance est le tableau que l'on aurait obtenu pour les fréquences totales, sous l'hypothèse que les deux variables sont indépendantes, c'est a dire que la fréquence totale pour chaque couple de valeur est égale au produit des fréquences marginales pour chacune des valeurs:
un exemple de dépendance fonctionnelle est la taille et le poids.