Spécial Covid-19

Quelques éléments de statistiques (descriptives & tests) à destination du grand public en période de Covid-19

BULLeTIN N°1 (23 mars 2020) : TROIS POINTS ESSENTIELS POUR COMPRENDRE LES DONNÉES QUI CIRCULENT AUTOUR DU COVID-19

Depuis quelques semaines, nous sommes bombardés de chiffres, souvent anxiogènes, relatifs au développement de la pandémie en France et à travers le monde. Or, nous ne sommes pas toujours bien armés pour les comprendre, les interpréter, les relativiser.

A partir de mon expérience d’enseignant-chercheur en économie à l’Université de Paris (notamment auprès des étudiants de première année et du cours de comptabilité nationale), je vous propose sur cette page quelques outils d’aide à la lecture des données diffusées par les médias.

Je soulignerai trois points qui me semblent essentiels : (i) la distinction entre variables de flux et variables de stock ; (ii) la nécessité de raisonner en relatif plutôt qu’en absolu ; (iii) la nécessité de ne pas négliger l’importance de la consolidation (correction) des données.

1) Variables de flux vs variables de stock.

Les économistes ont l’habitude de distinguer deux façons de concevoir de la donnée. Soit en observant, tel un robinet qui coule, le flux relatif à une variable sur une période donnée, soit en s'intéressant au cumul d'une variable à un instant "t".

Ainsi, le fameux PIB est une variable de flux. Il comptabilise la production des « secteurs institutionnels » (les entreprises, les administrations publiques, etc.) sur une année. L'indicateur du PIB ne répond pas à la question : combien les acteurs de l’économie française ont produit depuis que le pays France existe mais, à la question : combien ces mêmes acteurs ont produit au cours de l’année observée ?

Les variables de stock, elles, représentent la quantité cumulée d’une variable donnée à partir d’une date de référence. Pour reprendre la métaphore de l’évier, il ne s’agit plus de regarder le flux d’eau qui coule mais la quantité d’eau qui se remplit dans le fond de l’évier. En économie par exemple, le capital est une variable de stock. Il recense notamment pour ce qui est du capital physique, la quantité de machines à disposition du pays à un instant donné. La variable « capital » ne nous dit pas combien les acteurs de l’économie française ont acheté de machines nécessaires à la production au cours d’une année – c’est la variable « formation brute de capital fixe » qui nous le dit - mais combien de capital productif est à disposition dans les usines du pays à un instant t.

Il existe évidemment un lien entre les variables de flux et les variables de stock ; le flux d’eau que l’on observe vient s’ajouter à l’eau déjà présente (le stock) au fond de l’évier. Il faut toutefois avoir en tête que :

- Nous n’avons pas forcement commencé à compter notre flux au moment où notre évier était encore vide ; autrement dit, très souvent, pour connaître le stock d’une variable il ne suffit de faire la somme des flux observés ; c'est plus compliqué.

- D’autre part, notre bonde peut fuir, si bien que le stock peut disparaître sans qu’on en ait vraiment conscience. Pour ce qui est de la variable capital, les économistes ont l’habitude d’inclure dans leurs calculs la « dépréciation » du capital (sa destruction au cours du temps car le capital peut devenir obsolète).

Concernant le covid-19, les données qui nous sont fournies chaque soir sont le plus souvent des variables de stock. On nous annonce le nombre de contaminés ou de morts depuis le début de l’épidémie, en France. On notera au passage qu’on prend le début du mois de mars comme « date de référence », mais on peut probablement penser que des individus ont été contaminés par le covid-19 sur le sol français avant mars. Dans cet exemple, la variable de flux, journalière est donc le nombre de nouveaux contaminés ou de morts décomptés dans les dernières 24h.

La distinction entre flux et stock est rarement clairement énoncée dans les articles de presse que j’ai pu lire. Il apparaît pourtant essentiel de le faire. Ainsi, alors qu'au début de l'épidémie, le nombre de décès nous était annoncé sur les dernières 24h (variable de flux), l'information nous est le plus souvent désormais donnée sous la forme du nombre de décès depuis le début de l'épidémie (variable de stock).

Par ailleurs, pour reprendre la métaphore du capital, la variable de stock se « déprécie » ; et c’est ici une bonne nouvelle ! En effet, il y a certes chaque jour de nouveaux cas de contaminations qui viennent s’ajouter à ceux des jours précédents, ce qui constitue notre fameuse variable de stock du nombre de cas depuis le début, mais chaque jour aussi des malades guérissent. On en parle peu. Je ne suis pas médecin, mais j’imagine que le temps de guérison est très variable d’un patient à l’autre et que, tel un comptable, il nous faudrait calculer un « amortissement » approprié à chaque patient. Autrement dit, estimer la réduction du « stock » de malade n’est pas aisé ; cela serait pourtant fort utile afin d’estimer nos besoins en lits d’hospitalisation et de réanimation dans les prochains jours.

2) Raisonner en termes relatifs

Le deuxième point essentiel est la nécessité de raisonner en termes relatifs.

On entend beaucoup que la Région Grand Est est la région la plus touchée, suivie de près par l’Ile de France. Et c’est vrai. En effet, la région Grand Est compte au 28 mars 2020, 756 patients en réanimation, l’Ile de France 1570, L’Auvergne-Rhône-Alpe 432. Un raisonnement trompeur pourrait même nous amener à considérer que la région Ile de France est plus touchée. Mais un raisonnement en relatif peut rétablir la justesse de la situation. Ainsi, la Région Grand Est compte 5,5 millions d’habitants, l’Ile de France 12,2 millions d’habitants (sans tenir compte des départs en régions, ils seraient selon diverses sources autour de 1,2 million à avoir quitté la région durant le week-end précédent le confinement), l’Auvergne-Rhône-Alpe 8 millions et la Bourgogne-Franche-Comté 2,8 millions d’habitants.

Rapporté aux nombres d’habitant - ce rapport n’a sans doute pas tellement d’intérêt d’un point de vue de la question des places en réanimation, le calcul a une vertu purement pédagogique - le 28 mars 2020, 0,013% de la population du Grand Est était en réanimation pour cause de Covid-19 ; 0,012% de la population de l’Ile de France et 0,0054% pour l’Auvergne-Rhône-Alpe. On voit immédiatement que le Grand Est est en fait de ces trois régions celle la plus touchée, suivie de très près par l’Ile de France. La Bourgogne-Franche-Comté comptait quant à elle 194 patients en réanimation le 28 mars, soit nettement moins que les 3 régions précédemment citées. Toutefois, la région ne compte que 2,8 millions d’habitants. Ainsi, la région compte 0,007% de sa population en réanimation pour cause de Covid-19. Elle est donc en réalité plus touchée que la région Auvergne-Rhône-Alpe, ce qui est probablement lié au fait qu'elle est limitrophe au territoire alsacien.

Prenons maintenant une autre question : quelle tranche d’âge est la plus touchée par le Covid-19 ?

Vous pouvez voir ci-contre la répartition que l’on peut trouver sur le site de L’Internaute au 20 mars 2020 ; sur 12706 cas confirmés : moins de 15 ans, 167 cas confirmés ; 15-44 ans : 3882 cas ; 45-64 ans : 4204 ; 65-74 ans : 1778 ; + 75 ans : 2675.

Il faut ici être relativement attentif car cette répartition concerne les cas confirmés de Covid-19. Or, pour avoir une bonne représentation des risques par tranche d’âge, il conviendrait en réalité de mesurer les cas en fonction de la répartition de la population française par tranche d’âge.

Ainsi, au 1er janvier 2020 la population française était de 67 millions d’habitants, selon l'INSEE, répartie de la façon suivante :

11,9 millions avaient moins de 15 ans

23,9 millions entre 15 et 44 ans

17,4 millions entre 45 et 64 ans

7,4 millions entre 65 et 74 ans

6,4 millions avaient + de 75 ans

source : Pascal Grouiez (2020)

Ce deuxième graphique nous permet de tenir le raisonnement suivant : si la population française était touchée par le Covid-19 indépendamment de son âge, la répartition par tranche d’âge devrait être la même dans le graphique 1 que dans la graphique 2. Ce n’est pas le cas.

La conclusion est la suivante : il n’y a aucun sens à affirmer à partir du seul premier graphique que la population de plus de 75 ans est plus touchée par le Covid-19 que la population disons des 15-44 ans. Tout dépend de la manière dont la population française se répartit par tranche d’âge ! En revanche, à partir du deuxième graphique, il est juste de conclure que la population de plus de 75 ans est plus touchée que le reste de la population. Elle représente 9,5% de la population française mais 21% des personnes touchées par le covid-19 au 20 mars 2020. Pour les autres tranches d’âge, la différence n’est pas si flagrante à l’exception des moins de 15 ans :

Les 15-44 ans représentent 35% de la population française et 30% des personnes touchées au 20 mars ;

Les 45-64 ans représentent 26% de la population française et 33% des personnes touchées au 20 mars.

Les 65-74 ans représentent 11% de la population française et 13% des personnes touchées au 20 mars.

Ce qui est un peu rassurant, c’est que les moins de 15 ans représentent 17% de la population française mais seulement 1,3% des touchés par le Covid-19 au 20 mars.

3) La consolidation des données

Enfin, un dernier point me semble essentiel. Je le répète régulièrement à mes étudiants. Un bon économiste doit se méfier des chiffres. Cela peut paraître paradoxal, mais c’est pourtant essentiel, et notamment dans la période actuelle.

En l’absence de tests systématiques auprès de toute la population française il est impossible de connaître l’étendue de l’épidémie sur le territoire et le nombre réel de personnes contaminées. Il est possible d’avancer que la sous-représentation des moins de 15 ans par rapport à leur poids dans la population cache sans doute le fait qu’ils sont le plus souvent des porteurs sains (ou bien qu’ils ne contractent pas le virus, ce devrait sans aucun doute intéresser les chercheurs en médecine quand le temps ne sera plus à l’urgence).

On sait désormais que les chiffres du nombre de décès n’incluent pas les décès hors du milieu hospitalier. Cela devrait probablement évoluer dans les prochains jours, en incluant les décès en EHPAD dont on devra supputer la cause de la mort en l'absence de test. Dans ces conditions, pourra-t-on encore comparer les séries temporelles (les données jours après jours) ? Rien n’est moins sûr si les données ne sont pas rapidement consolidées, c’est-à-dire que sont ajoutés au nombre de décès du covid-19 du mois de mars, les décès ayant eu lieu dans les EHPAD au même moment mais pas encore comptabilisés.

Enfin, pour en revenir aux questions de variables de flux et de stock, il conviendrait de retirer des nombres de cas, dans une logique de raisonnement « en stock », les guérisons journalières et, malheureusement aussi, les personnes décédées. On pourrait alors intelligemment raisonner de deux manières :

- Option 1 : Produire une variable de flux journalière ; par exemple le nombre de nouveaux cas observés du jour mais amputé du nombre de personnes guéries (ce qui suppose de pouvoir les comptabiliser) et décédées. Pour reprendre mon analogie de tout à l’heure à propos de l’investissement en capital nouveau (la Formation brute de capital fixe), cela reviendrait à créer l’équivalent de ce qu’on appelle en comptabilité nationale la Formation nette de capital fixe. C’est-à-dire le capital nouveau, en l’occurrence investi au cours d’une année, duquel on déduit la dépréciation de capital au cours de la même année.

- Option 2 : Produire une variable de stock fiable. Recompter depuis le début (c’est plus facile à faire que dans le cas du capital en France !) le nombre de cas observés en déduisant les cas de guérisons - et de décès - puis ajouter jour après jour à cette variable de stock, la variable de flux précédemment calculée. On aurait alors une vision assez précise du nombre de cas à un instant t, c’est tout l’intérêt d’une variable de stock !

Pour conclure, et en attendant la diffusion de chiffres de meilleure qualité par les médias, restez chez vous et remerciez les personnes mobilisées, c’est la meilleure façon d’éviter que ces chiffres s'aggravent toujours plus.


BULLETIN N°2 (6 AVRIL 2020): COMMENT SAVOIR SI UN MÉDICAMENT EST EFFICACE ? QUELQUES PRINCIPES DE TESTS DE MOYENNES D'ÉCHANTILLONS

La Chloroquine, fait beaucoup parler d'elle dans la presse du fait qu'elle apparaît pour certains comme un remède potentiel du Covid-19.

Les critiques formulées auprès de ses défenseurs portent sur la question de l'absence de démonstration scientifique convaincante de son efficacité. On reproche notamment l'absence de groupe "placebo" qui évidemment soulève des questions d'ordres éthiques en plein cœur de la crise sanitaire et alors que les enjeux dépassent ceux d'une simple molécule de confort.

La question légitime qu'on peut se poser face à cette controverse est celle de savoir comment les chercheurs en médecine apportent-ils la preuve de l'efficacité d'un traitement ?

Il existe différentes manières de le faire et je ne les aborderai pas toutes, d'autant plus que je n'ai aucune compétence en médecine. Il me sera notamment impossible d'aborder la question des preuves relevant des sciences médicales elles-mêmes, par exemple en démontrant que la molécule, agissant sur tel ou tel anticorps aurait un effet positif pour "booster" les défenses immunitaires des patients. Je vais donc me pencher sur un régime de preuve qui s’appuie uniquement sur les outils de tests statistiques.

Plus précisément, pour répondre à la question générale de savoir quels sont les effets d'un médicament sur telle ou telle population (ici en l'occurrence celle atteinte par le Covid-19), les chercheurs en médecine ont recours aux tests de comparaison de moyennes.

Que compare-t-on ?

De façon assez simple il s'agit de comparer deux échantillons de la population. Plus précisément, dans un premier temps les chercheurs sélectionnent deux échantillons de la population selon le principe des quotas. Il s'agit de constituer un échantillon représentatif de la population observée, par exemple, en termes de tranches d'âge. En référence au Bulletin n°1 de cette page, si l'échantillon est constitué de 100 patients, afin d'être représentatif de la population française, il devra comporter 17 jeunes de moins de 15 ans, 35 adultes entre 15 et 44 ans, 26 entre 45 et 64 ans, 11 de 65 à 74 ans et 11 de plus de 75 ans.

Evidemment il conviendrait de sélectionner ces deux groupes de façon très aléatoire, parmi les malades et en incluant d'autres critères tels que le sexe (il n'y aurait aucun sens à ne choisir que des hommes ou que des femmes) et tout critère pertinent vis-à-vis de la question posée. On le voit, l'échantillonnage est un procédé complexe et il constitue le plus gros du travail à réaliser en amont du test statistique pour s'assurer que le résultat ait un réel sens. Le fait de sélectionner parmi les malades est à ce sujet problématique. Cela suppose en effet de détecter facilement les porteurs sain - les tests permettant de savoir si un individu est atteint du Covid-19, ne sont pas 100% fiables. Certains, on le sait, génèrent des "faux négatifs" ; ils doivent probablement également générer des "faux positifs". Il faudrait de plus s'assurer que tous les sujets malades sont au même stade de la maladie, qu'ils soient porteurs sains ou qu'ils présentent des symptômes de la maladie qui, on le sait désormais, sont très variés.

Arrêtons nous un instant sur le principe du double échantillonnage. Il serait en effet assez légitime de s'interroger sur son utilité. Ne pourrait-on pas simplement comparer le résultat d'un échantillon de personne prenant de la chloroquine avec le reste de la population française ?

Par exemple, si on connait la loi de distribution du temps de guérison des personnes atteintes par le Covid-19, il est alors possible de comparer la moyenne de la durée dans la maladie avec celle de notre groupe représentatif traité à la Chloroquine. Ce procédé est en fait problématique, car, il n'est pas certain que l'ensemble des personnes atteintes par la maladie soit représentatif de la répartition de la population française (il peut y avoir, et on le sait maintenant des facteurs aggravants tels que le surpoids, la diabète, l'hypertension, etc.). Les statistiques collectées auprès de la "population française" seraient probablement biaisées, sans compter qu'elles pourraient inclure des personnes prenant de la chloroquine pour d'autres raisons, puisque ce médicament est déjà prescrit. Le double échantillonnage permet de limiter ces risques, même s'il ne les fait pas totalement disparaître.

Une fois nos deux groupes constitués, il convient de réaliser le test médicamenteux. Mais, les choses se compliquent en période de crise sanitaire. Car, alors que l'urgence est de sauver des vies, le principe du test est d'administrer de la chloroquine au 1er groupe alors que le 2eme groupe se voit attribuer un placebo.

Evidemment les deux groupes doivent ignorer tout de la nature de leur traitement. Et, les deux groupes doivent avoir été échantillonnés de la même manière donc comporter dans les mêmes proportions, par exemple, la population des plus de 75 ans dont on sait qu'elle est plus à risque.

De plus, il faudrait également que tous les membres des deux groupes commencent au même moment le traitement, tout en sachant qu'un des deux groupes ne dispose en fait que d'un placebo.

Admettons que l'on trouve les volontaires nécessaires pour une telle expérience, que les deux échantillons soient parfaitement représentatifs de la population française selon les critères qui auront été préalablement fixés.

Il convient alors ensuite de collecté une donnée assez simple. Faisons l'hypothèse joyeuse que le Covid-19 ne conduise à la mort d'aucun patient, ainsi ils sont tous guéris, avec ou sans placebo. La question deviendrait donc la suivante : pendant combien de temps les patients ont-ils été malades ?

Pour chacun des groupes, on pourrait collecter l'information suivante : (Individu i ; nombre de jours malade).

Cela constituerait alors deux groupes, dont on devrait normalement pouvoir représenter la fréquence du nombre de jour malade.

Le test statistique serait le suivant : il s'agit d'observer la moyenne du temps passé dans la maladie entre les deux groupes (chloroquine vs placebo) et de repérer s'il existe une différence significative entre les deux groupes. Si, en moyenne, le groupe traité à la chloroquine reste moins longtemps malade que celui ayant reçu le placebo, alors il est possible de conclure à l'existence d'un effet de la molécule sur les patients atteints par le Covid-19.

Comment réaliser ce test statistique de comparaison de moyennes ? Il existe un test statistique de moyenne bien connu qui s'appelle le test de Student (ou test T). Il permet de comparer deux moyennes et de décider si les moyennes sont significativement différentes ou non.

Mais, pour procéder à un tel test, il convient de vérifier quelques éléments importants :

1) les variables doivent être quantitatives (ici il s'agit bien d'un nombre, en l'occurrence le temps passé à être malade)

2) Les deux échantillons doivent être d'une taille suffisante (au moins 30 observations) ; même si les deux groupes peuvent être de taille différente.

3) les deux échantillons doivent suivre une fréquence comparable à la distribution d'une "loi normale" (ce qui ressemble à cela =>)

4) Il faut que les observations soient parfaitement indépendantes (ne pas appartenir à la même famille par exemple).

source : Wikipedia

5) Les variances des deux échantillons doivent être homogènes. Dit autrement, il faut que les deux variances (celle de l'échantillon 1 et celle de l'échantillon 2) soient comparables. La variance est une mesure de la dispersion des valeurs d'un échantillon. Elle exprime la moyenne des carrés des écarts à la moyenne, c'est à dire la différence entre la moyenne des carrés des valeurs de la variable et le carré de la moyenne. Plus l'écart à la moyenne est grand plus il pèse dans le calcul total de la variance. Pour le vérifier il existe différents tests, notamment le test de Fisher qui est opérationnel lorsque la distribution est celle d'une loi normale.

Ainsi, pour répondre au 5ème critère, il aura pour cela fallu dans un premier temps vérifier que les distributions des deux échantillons sont normales. Il existe de nombreux tests de normalité (test de Kolmogorov-Smirnov, test d'adéquation du Chi2, test de Shapiro-Wilk, etc.).

Supposons que tous les tests portent leur fruit, autrement dit qu'ils ont démontré que les échantillons suivent une loi normale, que les variances sont homogènes, que les observations dans les deux groupes et à l'intérieur de chacun des groupes sont indépendantes. Alors il est possible de procéder à la comparaison de deux moyennes.

Le test de Student repose sur les deux hypothèses suivantes :

l'hypothèse O, les moyennes sont identiques (= Student)

source : José Labarère (2011)

L'hypothèse 1, les moyennes sont différentes

source : José Labarère (2011)

En appliquant la formule suivante

(source : José Labarère, 2011)

où m1 est la moyenne de l'échantillon 1, m2 la moyenne de l'échantillon 2, n1 le nombre d'individus de l'échantillon 1, n2, le nombre d'individus de l'échantillon 2, on peut calculer la valeur de T liant les moyennes de nos deux échantillons


Il ne reste plus qu'à comparer le résultat trouvé par le calcul du T avec celui d'une table de Student à :

  • "n1+n2-2" degré de liberté (ddl),
  • et avec un choix de risque de rejeter l'hypothèse H0 "les moyennes sont identiques", donc de dire qu'elles ne le sont pas alors qu'en réalité les moyennes sont effectivement identiques à 1% de risque d'erreur, 5%, 10%,

La table de Student peut se lire ici sur Wikipedia : table de Student.

Si T > t (valeur trouvée dans la table à "n+1+n+2-2" ddl), on rejette HO ("les moyennes sont identiques"), les deux moyennes sont significativement différentes et il est possible de conclure que le fait d'être soigné à la Chloroquine permet de réduire la durée dans la maladie. Si T<t, on ne peut pas rejeter HO et on ne peut pas conclure que les deux moyennes sont significativement différentes.

Le protocole de test ne relève donc pas uniquement de problématiques liées à la médecine (ces problématiques jouent un rôle essentiel en amont du test statistique, à savoir pendant l'échantillonnage). En revanche, une fois les échantillons correctement construits, la difficulté est statistique car il faut vérifier de nombreuses conditions avant de pouvoir affirmer [avec un risque d'erreur qui reste non négligeable (à 1%, 5%, 10%, etc.) ; en général en médecine on ne tolère pas des erreurs de plus de 1%] que les moyennes sont différentes et que le médicament a effectivement un effet contre le virus.

La controverse actuelle porte notamment sur la nécessité, pour pouvoir valider l'efficacité du médicament contre le Covid-19, de construire deux échantillons dont l'un des groupes ne recevrait qu'un placebo.

BULLETIN N°3 : LIRE UN GRAPHIQUE EN LOG (3 mai 2020)

Du fait du caractère exponentiel du nombre de contaminations (rappelons que sans moyen de limiter la propagation du Covid-19, une personne infectée en contamine en général trois autres), des graphiques avec des échelles logarithmiques sont apparus dans les médias à partir de début avril pour rendre compte de l'évolution des données sur la pandémie.

Nous sommes tellement habitués à lire des graphiques en échelle linéaire qu'il peut parfois être déroutant de rencontrer des graphiques en échelles logarithmiques.

Je vous propose de vous en expliquer la lecture dans ce bulletin, ainsi que les effets de l'usage de ces échelles logarithmiques sur les comparaisons des données, notamment entre les pays.

Par définition, un graphique en échelle logarithmique est un graphique dont le système de graduation n'est pas linéaire mais progresse de façon géométrique. Chaque déplacement sur l'échelle du graphique (en abscisse, en ordonnée ou les deux à la fois) multiplie la valeur par une constante positive qui dépend du choix du graphiste. De ce fait, la position sur l'axe d'une valeur est proportionnelle au logarithme choisi (il peut être de n'importe qu'elle valeur positive, en général on choisit la base 10 pour les graphiques mais cela n'a rien de systématique).


Le graphique suivant (source : Grouiez, 2020 page "spécial covid-19") rend compte de la différence entre l'échelle linéaire et l'échelle logarithmique (avec ici un exemple d'échelle logarithmique en base 10).


  • Avec l'échelle linéaire, deux graduations dont la différence vaut 10 sont à distance constante.
  • Avec l'échelle logarithmique en base 10, deux graduations dont le rapport vaut 10 sont à distance constante.

Sur l'échelle logarithmique, les grands nombres sont comprimés, rapprochés de 1 et facilement représentés, en revanche les nombres inférieurs à 1 sont "raplatis". A l'inverse, l'échelle linéaire rend facile la lecture des petits nombres mais dès que les chiffres s'envolent la représentation graphique est beaucoup moins aisée ainsi que l'étude des différences de valeur, par exemple, entre deux pays ou deux régions.

Le graphique suivant (source : Grouiez, 2020, page "spécial Covid-19") met en évidence la différence entre l'échelle logarithmique (ici en base 2, c'est à dire que deux graduations dont le rapport vaut 2 sont à distance constante) et l'échelle linéaire.

On voit bien la manière dont l'échelle logarithmique "écrase" les grandes valeurs par rapport à l'échelle linéaire. Les courbes noire et rouge représentent graphiquement la même base de données, seule l'échelle de représentation est modifiée.

L'usage de l'échelle logarithmique n'a pas seulement un intérêt pour l'analyse de valeur absolue mais aussi pour l'analyse de valeur relative (voir bulletin n°1).

Comme vous le savez le nombre de contaminés est une variable de stock, ce qui signifie que sa valeur ne peut qu'augmenter, tout du moins tant que l'immunité collective n'est pas atteinte. En effet, la valeur de la période 2 est égale à la variation ayant eu lieu entre la période 1 et 2 à laquelle s'ajoute la valeur initiale en période 1.

Le fait d'avoir privilégié une analyse du nombre des contaminés sur la base d'une variable de stock plutôt que sur la base d'une variable de flux (on aurait pu aussi choisir de ne s'intéresser qu'au nombre de nouveaux contaminés sur un intervalle donné, ce qui est une variable de flux) rend inévitable l'augmentation de cette variable. L'échelle logarithmique permet avec ce types de variables - et particulièrement lorsqu'il s'agit d'une variable de stock pour laquelle on ne s'intéresse qu'aux flux entrants et non pas aux flux sortants (c'est-à-dire les guéris donc les "décontaminés") d'étudier les variations relatives de la grandeur.

Dit autrement, l'échelle logarithmique permet de répondre à la question suivante : Certes, cela augmente, c'est inévitable puisque on regarde un variable de stock sans soustraire les cas de guérisons, ça ne pourra donc qu'augmenter tant que de nouvelles contaminations auront lieux mais, est ce que l'augmentation laisse apparaître une tendance haussière, baissière ou est-t-elle régulière ? Est ce que cela augmente de "plus en plus", de "moins en moins" ou avec une certaine régularité ?

En physique cela reviendrait par exemple a étudier le mouvement d'une voiture qui avance en cherchant à comprendre si elle est en train d'accélérer, de ralentir ou bien si elle garde une vitesse constante.

En économie on se demanderait pour une variable quantitative croissante si sa croissance s'accélère, ralentit ou bien est a un rythme constant ?

En mathématique il s'agit en fait d'étudier la dérivée seconde. La dérivée première est positive, certes, puisque le chiffre croît, mais la question qui peut être posée est de savoir si la dérivée seconde est positive - la courbe sera convexe - ou bien si la dérivée seconde est négative - la courbe sera concave. Si la dérivée seconde est nulle, la croissance est continue et ne change pas de rythme.

Graphiquement, cela permet de se rendre compte de la situation sanitaire, de saisir si cela empire, s'améliore ou bien si cela ne change pas.


Le tableaur si après propos trois scénarios distincts de l'évolution du nombre de contaminés dans un pays y sur les 5 premiers mois de l'épidémie. Il s'agit de scénarios purement fictifs pour les besoins de la démonstration.


Dans le scénario 1, le rythme de l'augmentation des cas de contamination est de plus en plus fort.

Dans le scénario 2, le rythme de la croissance est constant.


Dans le scénario 3, le rythme de l'augmentation des cas de contamination est de plus en plus faible. La croissance est donc ralentie.


Le graphique ci-contre permet de rendre compte de ces trois scénarios à partir d'une échelle logarithmique en base 10. (Grouiez, 2020, page "spécial Covid-19").

Il met en évidence que dans le cas de données avec des grandes valeurs, l'échelle logarithmique permet de saisir "visuellement" si les données, qui peuvent nous donner le vertige, ont une tendance haussière, baissière ou bien si la croissance reste constante.

avec la diminution du nombre de nouveaux cas, et puisqu'il s'agit d'une variable de stock (sans soustraction des cas de guérisons), on se rapprochera du scénario 3 et le courbe aura tendance à s'aplanir.

Je poursuivrai prochainement ce bulletin en illustrant mes propos de données concrètes sur le cas français.