SECONDAIRE 3
Les statistiques
Sommets - Chapitre 7
LES RAPPELS - 2e SECONDAIRE
L'ÉTUDE STATISTIQUE
4 étapes
1) Collecte des données
2) Analyse des données
3) Interprétation des résultats
4) Présentation des résultats
POPULATION VS ÉCHANTILLON
2 définitions
La population est l'ensemble des individus/objets visés par l'étude.
Un échantillon est un sous-ensemble de la population qu'on veut étudier.
TYPES D'ÉTUDE
2 définitions
Lorsqu'on sonde toute la population, il s'agit d'un recensement. On parle d'inventaire lorsque la population est contituée d'objets.
Lorsqu'on sonde seulement l'échantillon, il s'agit d'un sondage.
CARACTÈRE D'UNE ÉTUDE
IMPORTANTS :
Le caractère de la variable étudiée influence la façon dont seront présentées les résultats de l'étude statistique.
Le type de caractère (ou de donnée) est basé sur les valeurs possibles de la variable étudiée
MÉTHODES D'ÉCHANTILLONAGE
ÉCHANTILLONNAGE ALÉATOIRE SIMPLE
L'échantillon est formé en sélectionnant
des individus de la population via
un processus aléatoire (hasard)
ÉCHANTILLONNAGE SYSTÉMATIQUE
L'échantillon est formé à l'aide d'une procédure qui parcourt l'ensemble de la population en sélectionnant de manière systématique
ÉCHANTILLONNAGE STRATIFIÉ
L'échantillon est formé de manière proportionnelle à partir de strates naturelles de la population.
ÉCHANTILLONNAGE PAR GRAPPES
L'échantillon est formé de la totalité des individus d'un ou de plusieurs sous-groupes (grappes) de la population.
SOURCES DE BIAIS
Clique sur le tableau ci-dessous
ORGANISATION DES DONNÉES
Les données recueillies à partir d'un sondage ou d'un recensement sont appelées données brutes. Elle peuvent ensuite être regroupées dans un tableau de données condensées. Cette manière de présenter les données ne permet pas d'analyser ou de conclure quoi que ce soit par rapport à la variable statistique étuidée.
Dans un taleau de données condensées, la ligne total donne toujours la taille de l'échantillon. De plus, la colonne fréquence indique le pourcentage correspondant à chacune de valeurs de la variable statistique étudiées. L'effectif correspond au nombre de fois que la valeur apparaît dans la distribution des données brutes.
Lorsqu'il y a beaucoup de données, il est plus pratique de les regrouper en classes.
Des règles s'imposent :
Il faut que chaque classe ait la même amplitude.
(dans l'exemple : 8 heures)
[calcul de l'amplitude]Le nombre de classes doit
être entre 5 et 8.
(voir table de Sturges)Une donnée ne peut pas être dans deux classes différentes.
Selon le tableau, on peut voir qu'il y a 5 individus qui étudient au moins 24 heures, mais moins de 32 heures. (exclu)
PRÉSENTATIONS DES RÉSULTATS
DIAGRAMME CIRCULAIRE (SEC 2)
Les diagrammes circulaires sont en général utilisées pour présenter des données qualitatives, mais aussi pour des données quantitatives discrètes.
Ils sont souvent accompagnées d'une légende qui présentent les différentes modalités.
(valeurs de la variable étudiée)Chaque secteur du cercle est proportionnel à la fréquence ou à l'effectif selon ce que l'on souhaite présenter.
Ce type de diagramme est principalement utilisé pour illustrer l'évolution d'une variable statistique à travers le temps.
Ce diagramme est privilégié pour les donnés quantitatives discrètes ou continues.
L'axe horizontal présente toujours le temps sous toutes ses formes (minutes, jour, année, etc.).
Les lignées brisés permettent de voir plus facilement les tendances entre deux prises de données (croissance, décroissance, vitesse plus lente, plus rapide, etc.).
DIAGRAMME À LIGNES BRISÉES (SEC 2)
DIAGRAMME À BANDES
(verticales)
Les diagrammes à bandes sont en général utilisées pour présenter des données qualitatives, mais aussi pour des données quantitatives discrètes.
Chaque valeur de la variable étudiée est appelée modalité et ces valeurs sont placés sur l'axe horizontal.
Sur l'axe vertical, il est possible de mettre l'effectif ou la fréquence (%) selon ce que l'on souhaite présenter.
Les bandes sont séparées par le même espace et chaque bande a la même largeur.
L'histogramme présente exclusivement des données quantitatives (discrètes ou continues).
Les données sont présentées en classes (intervalles de valeurs de la variable étudiée) sur l'axe horizontal.
Les bandes sont collées et de même largeur.
L'histogramme permet de visualiser rapidement l'ensemble des données, mais aussi il permet d'estimer les mesures de tendances centrales.
HISTOGRAMME
MESURES DE TENDANCE CENTRALE
MODE
Le mode est la donnée avec le plus grand effectif (ou la plus grande fréquence %)
« Le mode est à la mode »
MÉDIANE
La médiane est la valeur centrale de la distribution de données. Parfois, elle est l'une des données de la distribution, parfois elle est la moyenne des deux données centrales.
MOYENNE
La moyenne est la valeur réprensentant un point d'équilibre de la distribution.
Mesures de tendances centrales
- Tableau de données groupées en classe
MOYENNE
La moyenne se calcule de cette façon :
(Somme des données) ÷ (Total des effectifs)
Moyenne =
(1+0+0+2+3+1+1+1+0+2+3+0+1+0+2+0+1+1+1+2+0+0+0+1+2+3+3+0+1+2+1+1+0+2+3+0) ÷ 36
= 1,14... donc environ 1 chat en moyenne
Si les données sont condensés dans un tableau, il suffit de considérer l'effectif de chaque donnée dans le calcule de la moyenne :
(Donnée x effectif + Donnée x eff. + ... + Donnée x eff.) ÷ (Total effectif)
Total = 12 + 18 + 15 + 20 + 14 + 0 + 2 = 81 souliers
Moyenne =
(5x12 + 6x18 + 7x15 + 8x20 + 9x14 + 10x0 + 11x2) ÷ 81
= 7,17... donc la pointure moyenne est un 7.
Total = 44 + 58 + 70 + 81 + 54 + 30 = 337
Moyenne =
(12,5x44 + 17,5x58 + 22,5x70 + 27,5x81 + 32,5x54 + 37,5x30) ÷ 337
Si les données sont groupées en classes, il faut en effet considérer l'effectif, mais le calcul se fait à partir du milieu de la classe puisqu'on ne sait pas quelle sont les données brutes.
= 24,47 minutes
(durée moyenne)
MODE -> Classe modale
Dans la situation ci-contre, il faut trouver d'abord la classe modale, c'est-à-dire la classe avec le plus grand effectif. Le mode est alors estimé par le milieu de cette classe.
Classe modale : [10, 15] heures
Mode : 12,5 heures
MÉDIANE -> Classe médiane
Dans ce cas-ci, les données sont présentées dans un diagramme à bandes, il faut donc connaître la position de la médiane et donc il faut savoir le nombre total des effectifs. La médiane est alors la donnée située au milieu de la distribution
Total = 10 + 25 + 7 + 5 + 3 = 50 élèves
Médiane : « entre la 25e et la 26e donnée »
Médiane = 1 frère/soeur
Pour trouver la classe médiane, il faut d'abord connaître la position de la médiane et donc il faut savoir le nombre total des effectifs. La médiane est alors la donnée située au milieu. Ainsi, il faut cumuler les effectifs pour déterminer dans quelle classe se trouve la médiane de la distribution.
Total = 21 + 5 + 2 + 3 + 1 = 32 élèves
Médiane : « entre la 16e et la 17e donnée »
Classe médiane : [0, 8] retards
On peut estimer la médiane en prenant le milieu de la classe médiane.
Médiane = 4 retards
MESURES DE DISPERSION & DIAGRAMME DE QUARTILES
Le diagramme de quartile (ou diagramme à moustaches) permet de visualiser chaque quart de la distribution de données. Dans un même diagramme, les mesures de dispersion sont toutes réunies pour illustrer les différentes concentrations de données.
Dans chaque quart, il y a 25 % de l'effectif qui s'y trouve.
(Il y a le même nombre de données dans chaque quart)C'est la longueur de chaque quart qui détermine si les données sont concentrées ou non.
Mise en situation :
On a interrogé 17 sportifs pour leur demander combien de sports ils pratiquent régulièrement.
Voici les résultats qu'on a pris le soin de place en ordre croissant :
Après avoir trouvé l'ensemble des mesures de dispersion, il est temps de construire le diagramme de quartile pour mieux visualiser les concentrations de données.
Interprétations possibles des résultats :
1) 50 % des sportifs interrogés pratiquent moins de 4 sports régulièrement [Q2 - Médiane]
2) L'ensemble des sportifs interrogés pratique entre 0 et 8 sports de façon régulière [Étendue]
3) Au moins une personne interrogée ne pratique aucun sport de façon régulière [Minimum]