Le TD 2 a pour objet l'étude d'un tableau de données concernant les clients d'une banque que l'on peut trouver ici. Il y a 42 clients.
1- A partir du tableau, préciser quelle est la population statistique, quel est son effectif et combien de caractères sont étudiés (en précisant la nature).
Reponse: Clients d'une banque, effectif 42 et a chaque individu est associe 9 variables. Ces variables sont
Lieu de domicile: qualitative nominale
Statut d'occupation du logement: qualitative nominale
Nombre d'enfants à charge: quantitative discrete
Revenu mensuel du ménage (Fcs): quantitative continue
Nombre de pièces: quantitative discrete
Surface habitable (m2): quantitative continue
Nombre de véhicules: quantitative discrete
Profession du chef de famille: qualitative nominale
Age du chef de famille: quantitative discrete
2- A partir de ce tableau, déterminer le nombre de modalités de chaque caractère ou variable.
Reponse: par exemple, pour la colonne profession du chef de famille, on choisit une cellule toute seule qui ne gene personne et on y colle la formule:
=SOMMEPROD(1/NB.SI(K2:K43,K2:K43))
et =SUMPRODUCT(1/COUNTIF(K2:K43,K2:K43)) en anglais
3- Trier la population en fonction de "habite Lyon ou pas".
Reponse: On peut recoder en créant une nouvelles colonne, en cliquant sur la première cellule de cette colonne, en y collant la formule
=SI(C2="Lyon","Lyon","Pas Lyon")
et =IF(C2="Lyon","Lyon","Pas Lyon") en anglais
et en étirant cette cellule sur toute la colonne.
4- Construire un tableau présentant les individus en fonction de leur lieu de domicile (lyon ou hors lyon) et du nombre de véhicules.
Réponse: On va créer un tableau dynamique croisé. Pour cela on sélectionne le tableau. Ce qui parait étrange est que si on ne choisit que deux colonnes pour lesquelles on souhaite faire un tableau de contingence, cela ne fonctionne pas. Il faut rentrer absolument une troisième colonne pour lui dire quelles valeurs il faut mettre dans les cellules. Ceci est completement debile, mais c'est Exel (qui a par ailleurs d'autres qualités très appréciables). Ici, il a ete choisi, "numéro de fiche" et la raison pour ce choix est que cette colonne a une valeur différente pour chaque individu. C'est la condition nécessaire pour que tout fonctionne. Si vous trouvez une autre colonne qui a cette propriété, elle peut indistinctement jouer le rôle. Par contre, si vous choisissez une colonne qui a la meme valeur pour deux lignes différente, les résultats ne vont plus être corrects. Un conseil: creez vous meme une colonne du genre: 1,2,3,4,... pour numéroter les individus et servez vous en pour faire des tableaux de contingence.
Deuxieme piege: il faut choisir non pas "sum" mais "count" pour les valeurs de cette colonne factice "numero de fiche".
L' image suivante illustre comment choisir la valeur pour la colonne factice
Si vous choisissez "Sum" au lieu de "count", cela ne donnera pas un tableau de contingence mais cela va faire stupidement la somme de choses qui n'ont rien à voir avec un tableau de contingence.
En tout cas, vous obtenez normalement le résultat dans l'image suivante:
Pour obtenir un tableau de contingence, il suffit de "cliquer-droit" sur n'importe quelle valeur dans le tableau croisé dynamique et de voir le menu qui apparaît.
Choisissez "% of grand total" et vous obtenez le résultat suivant
Pour avoir les lois marginales pour toutes les lignes, il faut plutot choisir "% of row total" et on obtient:
Pour avoir les lois marginales pour toutes les colonne, il faut enfin choisir "% of column total" et on obtient:
5- On regarde maintenant des tableaux croises de variables continues et on va faire des moyennes et des variances conditionnelles, ce qui est tres simple: il suffit de faire des moyennes et des variances en se restreignant a des lignes et des colonnes particulières.
Pour cela on regarde les variables "age du père de famille" et "nombre d'enfants". Pour simplifier on recode "chef de famille" en classes: [0,29], [30,44], [45,60], [60,90]. Cela se fait grace a la commande "IF" ("SI" en francais):
=IF(L3<30,"18-29",IF(L3<45,"30-44",IF(L3<60,"45-59","60-90")))
Puis on fait un tableau croisé dynamique et on choisit "age en classes" (respectivement "nombre d'enfants") comme ligne (respectivement colonne).
Pour faire les moyennes et variances conditionnelles, on ajoute une colonne avec les centres de classes:
Puis, vous calculez les lois marginales pour chaque ligne (c'est a dire pour chaque classe d'âge du père de famille) en calculant les fréquences marginales pour chaque ligne comme on l'a déjà fait plus faut, puis en faisant la somme des valeurs du nombre d'enfant fois la fréquence pour ce nombre d'enfant, et ce pour chaque ligne: avec la fonction =SUMPRODUCT(C4:K4,C5:K5)
On peut faire la meme chose pour la moyenne des ages en fonction du nombre d'enfants:
Pour la variance conditionnelle, on utilise une formule avec SUMPRODUCT. Par exemple, pour les lignes, on fait