Exercices sur l'ouverture de données avec R

Exercice d'entraînement - Exercice 1

Contexte

Un particulier a décidé de produire son yaourt lui-même en quantité suffisante pour le vendre au marché de son village sous le label bio.

Son problème : il ignore quelle est la date de péremption d'un yaourt naturel sans conservateur.

Il décide donc de tester l'ensemble de ses échantillons.

Tous les jours, il prélève une cuillerée dans chaque pot et en vérifie le goût.

Il se réfère ainsi à la DLUO (Date Limite d'Utilisation Optimale) qui correspond à une manière d'apposer une date de péremption en fonction des propriétés gustatives d'un aliment et non de sa qualité sanitaire (datée à travers la DLC (Date Limite de Consommation)).

Son erreur n'a pas trop de conséquences car la flore bactérienne du yaourt empêche la prolifération des bactéries pathogènes. De plus, un des premiers indices de la déterioration d'un yaourt est son acidification perceptible au goût et due au développement lent de Lactobacillus.

Lorsque le goût du yaourt lui semble mauvais, il marque dans un registre l'âge de l'échantillon. Il espère ainsi trouver la durée moyenne d'un échantillon et en déduire une date limite de consommation à fournir auprès de sa clientèle.


Consignes

  1. Placer le fichier exercice1.txt dans un dossier.
    • Dans la console R - faite du dossier ainsi créé le répertoire source.
  2. Ouvrir le tableau "exercice1.txt". Ce tableau présente une séparation des données par retour à la ligne et un en-tête.
  3. Retrouver le nom de la/des colonne(s) de ce tableau et afficher leur contenu.
  4. Quelle est la durée moyenne d'un yaourt ?
  5. En supposant que l'échantillon est représentatif de la réalité :

Aller plus loin...

  1. En supposant que l'échantillon est représentatif de la réalité :
      • 90% ? (pour info, la fonction "sort" présentée dans le 2.2. (Aide 1) du menu peut servir)

Correction en ligne de la partie Aller plus loin

Exercice d'entraînement - Exercice 2

Commande à taper dans la console R - Faire un copier-coller

Si on reprend l'exercice de la Partie 2 -1.3., on ne peut sérieusement envisager de tester tous les pots de yaourts d'un lot afin de "deviner" la date de péremption. Cela d'autant qu'il faudrait les tester tous les jours jusqu'à péremption ! Il faut une démarche plus rigoureuse mais aussi, pragmatiquement, moins onéreuse.

Il faut échantillonner : faire des prélèvements au hasard.

Il faut déduire une date de péremption telle que cette date permette d'avoir un risque minimum, quasi-nul de pollution.

Voici donc des résultats d'échantillonnage (de prélèvements) réalisés sur des lots d'âges différents. Les âges sont référencés dans la première colonne. Dans la deuxième colonne, il a été indiqué si le lot était consommable par "O" (O = oui = consommable) ou par un "N" (N = non).

Consignes

  1. Ouvrir le taleau "exercice2.txt". Ce tableau présente une séparation des données par tabulation et un en-tête.
  2. Afficher les titres des colonnes du tableau ouvert (tableau = data-frame).
  3. Créer un vecteur "perime" contenant les âges de tous les échantillons périmés.
  4. Afficher l'histogramme de ce vecteur (20 barres de couleur rouge)
  5. Utiliser la fonction table pour calculer le nombre de yaourts non-consommables (N) par jour d'âge
  6. Récupérer le nombre de yaourts contaminés (N) (calculé en question 5) par jour dans un objet "yop".
  7. Remplacer les valeurs de yop par le pourcentage de yaourts périmés par jour (NB : 12 yaourts testés par jour)
  8. Créer un vecteur "jour" récapitulant l'ensemble des jours testés (du 4ème au 22ème)
  9. Construire un graphique mettant en relation le jour et le pourcentage de yaourts périmés (fonction plot).

Aller plus loin...

  1. Afficher les caractéristiques du tableau chargé question 1 (fonction ls.str)
  2. Afficher les résultats en fonction de l'âge en utilisant la fonction split.
  3. Afficher uniquement les résultats du jour 4 à partir de l'objet obtenu par la fonction split.

Correction en ligne de la partie Aller plus loin