Les bonnes pratiques en sciences de la nature

Ici, on veut partager des réflexions à propos de "bonnes pratiques de la recherche scientifique"

Rétrospectivement je comprends bien que cette entreprise de constituer un stock de bonnes pratiques est utile, mais je crois qu’il y a plus que cette simple utilité immédiate, à savoir qu’il s’agit de ne pas laisser les étudiants entre les mains d’enseignants inégalement compétents (ce n’est pas faire offense à mes collègues que de dire qu’il y a parmi nous des bons et des moins bons : comme dans tout groupe humain, il y a de tout, à savoir des bons et des moins bons, des attentifs et des moins attentifs, des consciencieux et des moins consciencieux, des compétents et des moins compétents...). Surtout, il y a là la possibilité de transformer l’ "enseignement" (mot que j’ai décidé de bannir de mon vocabulaire) en "étude" (ah, l’étude, la merveilleuse étude !), ce qui est éminemment souhaitable, comme je l’explique dans d’autres billets.


D’ailleurs, je me revois, étudiant, voulant bien faire, mais placé face à une montagne de prescriptions que j’ignorais pour la plupart, et, surtout, dont j’ignorais l’existence. J’étais furieux : on me demandait de connaître des choses sans m’indiquer quoi ; on me donnait des ordres inexécutables. Bref, on me disait de suivre ces "bonnes pratiques" que l’on ne me donnait qu’au compte-gouttes, et encore, dans les bons cas.

Bien sûr, on aurait pu me répondre qu’il y a une sélection par l’intelligence et le travail, mais internet n’existait pas, et il aurait fallu des heures en bibliothèque pour dénicher toutes ces règles, dont, a posteriori, je ne suis d’ailleurs pas certain que tous mes enseignants avaient toujours une parfaite maîtrise.

Aujourd’hui, je comprends que ceux qui nous invitaient à bien faire sans nous en donner la possibilité étaient des paresseux qui n’avaient pas fait le travail de constituer ce stock d’informations. D’ailleurs, je vois le même type de conduite inconvenante dans ces cours que nous ne comprenions pas, mais dont je sais maintenant que certains les dispensaient sans les comprendre eux-mêmes. Accusation gratuite ? Non : comment expliquer autrement que les questions que nous posions à certains de nos enseignants n’avaient pas de réponse ? Là encore, je sais que certains collègues justifient des cours trop difficiles en disant que les étudiants devront par eux-mêmes, qu’ils seront conduits à travailler, mais alors, il faut que ces difficultés soient savamment pas orchestrées, et pas qu’elles soient des excuses à la paresse ou à l’incompétence des enseignants.


Bref, je crois que nous avons une obligation, de constituer ce répertoire de bonnes pratiques… qui déclenchera une obligation pour les étudiants d’intégrer ces prescriptions. Bien sûr, il faut être réaliste : ils ne pourront pas tout faire d’un coup, tout apprendre d’un coup, de sorte que nous, les professeurs, devront hiérarchiser, afin d’aider nos jeunes amis à monter les marches une après l’autre.


Un beau travail en perspective !

  1. Le cadrage général de l'activité

Il faut documenter


La question de la documentation est bien connue des informaticiens, qui enchaînent des lignes de programme et qui arrivent à des programmes énormes... Comment y dépister des erreurs ? Comment les modifier ultérieurement ? Quand c’est programmes ne sont ni structurés ni expliqués, c’est impossible.

Et c’est la raison pour laquelle on n’insiste jamais assez : il faut documenter.

D’ailleurs, cette documentation n’est pas pour seulement pour les autres, mais pour soi-même, et c’est la raison pour laquelle on doit d’abord penser à un organigramme, qui consigne en français ce qui sera codé.

Puis il faudra entrer dans le détail, et indiquer par des phrases en français (des "commentaires") ce que font les opérations que l’on met en oeuvre.

Ce qui vaut pour l’informatique vaut évidemment pour le calcul algébrique, le calcul matriciel, tous les calculs en réalité.

Et insistons : il ne s’agit pas seulement de faire cela pour les autres, mais pour soi-même !

J’ai encore vu hier l’exemple de feuilles de calcul de certains amis qui enchaînaient les opérations sans aucune phrase en français... et qui étaient perdus.

Evidemment, quand ils m’ont soumis le problème qu’ils ne parvenaient pas à résoudre seuls (puisqu’ils étaient perdus), je n’y suis pas arrivé, parce que même eux ne savaient pas dire ce qu’ils avaient fait.

Il y a un point encore supplémentaire à donne, qui est que le calcul algébrique notamment est fondé sur la pensée en langage naturel : on n’a pas assez répété que les équations ne sont que des expressions d’idées en langage forme. Une équation correspond à une idée en langage naturel.

Bien sûr, il y a quelques génies qui calculent comme chantent les rossignols, qui n’ont plus besoin de cette traduction, mais avant d’être un génie, il y a lieu d’apprendre à le devenir, et le seul fait que les jeunes qui apprennent fassent des erreurs montre qu’ils n’ont pas encore atteint cet état. Ils doivent donc apprendre tranquillement, et cela passe par de la documentation... qui ne doit pas se faire à posteriori, mais a priori !

Car on conservera aussi cette idée que nous devons avoir des objectifs clairs sans quoi nous ne pourrons pas trouver les chemins qui y mènent.

Oui, quand on fait un calcul il y a un objectif et on ne se lance pas au hasard vers cet objectif, mais selon un chemin qui doit avoir été prédéterminé.

Autrement dit, il faut dire en français quel est l’objectif, puis soliloquer (par écrit !) pour analyser le chemin, les étapes. Et soliloquer encore pour dire comment on parcourra les petits segments du chemin entre les étapes.

Et c’est alors amusant : souvent, ayant ainsi écrit en français, la traduction mathématique ou informatique devient évidente !


Etre un bon scientifique


L’histoire est exacte : un jour, il y a longtemps, discutant avec un "directeur de recherche", ce dernier m’a dit "Il faut faire de la bonne science". Et je lui ai répondu : "C’est quoi ?". A l’époque, il n’avait pas su me répondre, et j’avais évidemment été narquois... mais c c’est sans doute parce que j’ai un assez mauvais fond, n’est-ce pas ? Toutefois le pêcheur peut se racheter, et c’est ce que je propose de faire ici, en livrant quelques "Règles pour un bon scientifique".

J’en donne aujourd’hui trois : (1) dire combien, (2) citer de (bonnes références), (3) réclamer les moyens de la preuve pour chercher à comprendre.

Dire combien, combien, combien ?

La première règle se fonde sur la méthode des sciences de la nature, que j’ai discutée dans nombre de billets. Cette quantification intervient dans le deuxième étape de la démarche, à savoir que le phénomène identifié dans la première étape doit être quantifié, de tous les points de vue utiles. Ce seront ces données qui seront réunies en "lois", c’est-à-dire en équations, lesquelles permettront l’établissement d’une théorie, ou ensemble d’équations assorties de concepts quantitatifs, avant les tests de réfutation (quantitative) des conséquences de la théorie.

Bref, du nombre, du nombre, du nombre... Et voici pourquoi nous devons nous interdire d’utiliser des adjectifs ou des adverbes : la question, l’unique question, c’est "Combien ?".

Les références

En science, rien ne doit être donné ou fait sans justification ! Et c’est là que s’impose la bibliographie, et, de ce fait, la donnée de références.

Les mauvais scientifiques se contentent de trouver des références et de les donner sans justification, sans analyse critique. En revanche, les bons scientifiques savent évaluer les publications, et ne donner de références qu’avec une appréciation critique. Par exemple, on comprend facilement qu’on n’établit pas un fait si l’on cite une publication dont les méthodes sont défaillantes ! Et l’on comprend que l’on n’ira jamais donner des sources non scientifiques.

Mais la question est donc de savoir bien juger un travail publié, car il serait naïf de croire que toutes les publications sont bonnes, et je peux l’attester, moi qui ai vu mille fois publier des articles que j’avais refusé (pour cause de graves insuffisances méthodologiques), en tant que rapporteur !

Reste qu’il faut citer ses sources.

Les "moyens de la preuve"

Si l’on met dit qu’une fusée a décollé, je reste aussi bête qu’avant. Si l’on met dit qu’il y a une bataille en 1515, l’information est vide de sens, sans informations complémentaires. Si l’on me donne un dosage d’un produit dans une matrice, je doute, car je sais que les dosages imposent souvent des extractions, lesquelles sont bien souvent incomplètes. Et ainsi de suite.

C’est la raison pour laquelle, pour chaque donnée qui m’est délivrée, j’ai besoin des "besoins de la preuve", des détails de la procédure. Comment la fusée a-t-elle décollé ? Quels étaient les combustibles ? Et s’est-elle élevé de deux mètres ou a-t-elle atteint l’altitude de libération du champ gravitationnel terrestre ? Et à Marignan : étaient-ils une poignée, ou des milliers ? Et combien de temps cela a-t-il duré ? Combien de morts ? Et pour le dosage : quelle précision ? Comment s’est-on assuré que l’on a fait un bon dosage ? Et ainsi de suite.

Bref, avant d’admettre une information, il me faut mille détails, mille circonstances. L’énoncé précis des matériels et des méthodes employés par les personnes qui ont été à l’origine des résultats donnés.


Avec cela, on a un (tout) petit début, mais au moins, on sait ce qu’il y a à faire.


 Bonnes pratiques : ne pas généraliser hâtivement


Vite, d'une frappe sur les doigts, faisons un élan vers le bonheur ! Dans ce Responsible Science, que j'ai déjà cité, je lis, comme répréhensible  :

Using inappropriate statistical or other methods of measurement to enhance the significance of research findings;


En français "utiliser des méthodes statistiques ou des méthodes de mesures inappropriées pour donner à des découvertes de recherche plus d'importance qu'elles n'en ont". En réalité, la traduction du passage américain est difficile, parce que ce texte est lui-même un peu inexact : il dit "augmenter l'importance" ; or on ne peut pas augmenter l'importance d'une découverte, mais seulement faire croire que le résultat a plus d'importance qu'il n'en a en réalité. D'autre part, il y a une amphibologie au mot "significance", parce que, en statistiques, on parle de significativité, partant du bon principe que toute mesure est incertaine, et que, d'autre part, les théories sont toutes approximatives, même si leur précision va croissante.

Ce qui est clair, c'est que se pose ici la question du scientifique vis à vis de lui-même, et vis à vis de sa communauté. Si la juste ambition des scientifiques est de faire des découvertes, alors on comprend mal pourquoi on irait utiliser des méthodes fautives pour se tromper soi-même : au fond de soi, on sait bien quand on a observé un effet ou pas. A contrario, on sait qu'il y a hélas des individus qui vivent en représentation, et pour qui l'estime qu'on leur porte est plus importe que la justesse des idées qu'ils tendent à la communauté, en vue de s'en faire estimer. Et c'est à eux que s'adresse en réalité la phrase de l'Académie américaine des sciences.

Oublions-les, car ils ne méritent pas de cette considération qu'ils quêtent au prix de leur malhonnêteté. Et, vite, prenons positivement l'idée initiale : oui, ayant des résultats, pour nous assurer de leur justesse, nous avons souvent besoin de méthodes statistiques. Dans un autre billet, j'ai assez dit que nos mesures sont toujours imprécises à des degrés divers, de sorte que nos résultats expérimentaux ne concordent qu'imparfaitement à nos "théories", nos équations d'ajustement. C'est pour cette raison que nous avons besoin de savoir avec quelle probabilité il y a ou non concordance. Il nous faut des méthodes de mesure toujours plus précises, et il nous faut valider, afin de savoir ce qu'il en est de nos résultats.


L'écueil du cloisonnement, l'écueil de la dispersion


Dans la communauté scientifique, il y a des positions différentes, et l'une d'elle est particulièrement épineuse : la direction de thèses. Ici, je propose de discuter un tout petit aspect de cette charge.


Mais commençons par dire tout d'abord, et très énergiquement, que les doctorants ne sont pas étudiants, mais de jeunes scientifiques. Même si la thèse d'état ancienne, qui pouvait durer jusqu'à 15 ans, a été remodelée, réduite à trois seulement, il n'en reste pas moins que, de façon tout à fait réglementaire, les doctorants sont de jeunes scientifiques. Bien sûr, ils ont le droit d'étudier, comme n'importe qui, fut-il Michel Eugène Chevreul, président de l'Académie des sciences, et plus que centenaire. Bien sûr, on leur accorde une carte d'étudiant afin de leur faciliter l'existence, eu égard à leur salaire parfois modeste. Mais ils ont les droits et les devoirs des scientifiques, parce que ce sont de jeunes scientifiques. Ils sont responsables de leur propre production, ce qui justifie que leur directeur de thèse, qui n'est, lui, pas responsable de cette production, puisse figurer dans le jury de thèse, sans être juge et partie. Le directeur de thèse est là pour encadrer la thèse, dès la définition du sujet, par les moyens qu'il donne, que ces moyens soient matériels ou intellectuels, par l'enthousiasme contagieux qu'il distribue…

Mais cette position de direction de thèse, un peu décrite par les écoles doctorales ou par le ministère, notamment dans des « contrats d'encadrement de thèse », que s'engagent à accepter le directeur de thèse et le doctorant, met les directeur de thèse dans dans une position qui doit être intelligente. Le directeur de thèse n'est donc pas responsable du travail effectué, mais il ne peut guère échapper à un engagement de contribuer à aider le doctorant, matériellement et intellectuellement. L'aide matérielle est en réalité la plus simple à fournir : au fond, il s'agit de trouver des équipements que l'on a souvent déjà dans le laboratoire, du temps expérimental, des espaces de laboratoire, de bureau, des financements pour les consommables.

Mais c'est ici la question du soutien intellectuel qui me préoccupe, et plus particulièrement l'exemple que le directeur de thèse est censé donner. Bien sûr, le directeur de thèse devra montrer combien les bonnes pratiques sont importantes, combien le recours à des méthodes officielles ou validées s'imposent, combien les validations sont essentielles. Mais il n'y a pas que le travail local qui compte, il y a aussi l'ouverture au monde. La vie scientifique, c'est aussi être capable de partager, de s'entraider, afin d'arriver plus efficacement à agrandir le territoire du connu. Là, le réseau est essentiel, et c'est évidemment une bonne pratique que de se constituer un grand répertoire d'amis, c'est-à-dire de personnes qui partagent la passion pour la recherche de la connaissance.

Le directeur de thèse doit donc faire sortir le doctorant du laboratoire. Ce dernier doit apprendre à questionner les experts, qu'ils le fassent par une recherche bibliographique ou en allant dans des conférences, mais au-delà de ces sorties très codifiées et assez rares, il y a aussi toutes les interactions, plus faciles, qui se font par téléphone, par whatsap, par skype… Les doctorants doivent apprendre à joindre un futur ami par ces divers moyens, et cela passe par des règles simples, telles que ne pas croire que l'on atteindre une personne si on l'appelle une fois seulement ; ne pas croire qu'un correspondant répondra à un email, alors que, surtout si c'est un bon expert, il est harcelé par des emails ; ne pas croire qu'un message sur un répondeur suffira à susciter un rappel, car les scientifiques chevronnées manquent de secondes. Les doctorants devront apprendre à laisser plusieurs message, à passer par des secrétariats...

Bref, le directeur doit enseigner aux doctorants à sortir du laboratoire. Beaucoup.

Cet effet centrifuge a un avantage immense, qui est de ne pas laisser le doctorant avec les connaissances insuffisantes du laboratoire où il fait sa recherche. Cette bonne pratique des directeurs de thèse permet aux doctorants de voir des techniques, des méthodes, des idées, des théories, qu'ils n'auraient pas vues en restant au laboratoire. Et puis, il y a l'intérêt de se constituer un réseau, de s'insérer socialement dans le milieu scientifique.

Mais il faut de la mesure, car un doctorant qui serait sans cesse sorti du laboratoire n'y serait donc pas, de sorte que son travail de recherche en pâtirait. Il y a donc un juste équilibre à trouver entre le confinement et la dispersion, et c'est une des missions importantes du directeur de thèse que d'être capables de jeter une regard bienveillant sur l'activité des doctorants pour leur faire reconnaître un éventuel déséquilibre de ce point de vue.

Évidemment cela impose que les directeurs de recherche soient eux mêmes capables d'analyser leur propre activité, mais… au fait, pourquoi les directeurs de thèse ne demanderaient-ils pas à des amis d'avoir un regards sur leur propre activité, afin de commenter cet équilibre ? 

 Jamais de mesure sans estimation de l'incertitude.


Dans la catégorie des bonnes pratiques en science, il y a des données élémentaires, et l'une d'entre elles est qu'une mesure doit toujours être assortie d'une estimation de sa qualité.


Pour expliquer la chose, je propose de considérer l'exemple d'une balance de précision, que l'on utilise pour peser un objet, par exemple un principe actif pour la réalisation d'un médicament. Dans un tel cas, on comprend qu'il est hors de question de se tromper sur la mesure, car ces produits sont extraordinairement actifs, de sorte que la vie des patients en dépend.

Nous avons donc à peser correctement ce principe actif, et voilà pourquoi nous utilisons une balance de précision. Évidemment cette balance aura été contrôlée, car il serait dramatique d'utiliser une balance fausse. Contrôlée ? Cela signifie qu'un contrôleur sera venu avec un étalon, et qu'il aura  comparé la masse connue de l'étalon avec la masse affichée par la balance. Cela se pratique en général une fois par an, car ces contrôles sont coûteux. De sorte que, puisque l'intervalle entre deux contrôles est très long et qu'il peut se passer mille choses pendant un an (la foudre qui dérègle la balance, un choc qui la fausse...), on aura intérêt à contrôler soi-même ses balances à intervalles bien plus cours (un  jour, une semaine au maximum), notamment à l'aide d'étalons secondaires, que l'on aura  préparé la façon suivante : on prend un objet inusable, par exemple un bout de métal ou de verre que l'on conserve précieusement  dans un bocal, sur un coton ou sur un papier afin qu'il ne puisse pas s’abîmer,  et, et on le confronte à l'étalon primaire, le jour où le technicien contrôleur vient contrôler les balances. Sur la boîte qui contiendra cet étalon secondaire, on note  la masse déterminée, et chaque matin ou chaque semaine, on sort l'étalon secondaire, que l'on conserve à côté de la balance, et on le pèse, afin de s'assurer que la balance donne une valeur juste.


Soit donc une balance dont on connaît la fiabilité. On peut maintenant peser le principe actif. Je n'indique pas ici les bonnes pratique de la pesée... mais je signale qu'elles existent, et que peser ne se résume pas à simplement peser. Bref, on  place l'objet à peser sur la balance et l'on obtient une valeur. Le problème des balances de précision, c'est qu'elles sont ... des balances de précision, à savoir des instruments extrêmement sensibles à leur environnement. Il y a les courants d'air d'inévitables, il y a le bruit électrique dans  les circuits électroniques de la balance quand il s'agit d'une balance électronique, il y a les vibrations... Bref, il y a mille raisons d'être certain que la valeur donnée par la balance sera inexacte, et cela est une donnée du monde, inévitable. D'ailleurs, la balance affiche un certain nombre de chiffres significatifs, et comme la valeur exacte que l'on cherche n'a aucune raison de tomber exactement sur un des barreaux de l'échelle (en mathématiques, on dirait que la probabilité que cela survienne est nulle),  on comprend que, au mieux, la valeur affichée ne peut pas être connue avec une précision qui soit meilleure  que  l'écart  entre deux indications (graduations) de la balance.

Puisqu'il est inévitable que la valeur mesurée soit imprécise, la question est de savoir quelle est cette imprécision. Imaginons que l'on pèse trois fois le même objet sur la même balance et que l'on obtienne trois fois la même valeur. Alors on pourra considérer que l'écart entre les graduations de la balance est une estimation de l'incertitude que l'on a sur la valeur affichée. Mais avec les balances de précision, il en va généralement autrement, à savoir que trois mesures successives donnent trois valeurs légèrement différentes, auquel cas on calcule un écart type, c'est-à-dire une estimation de la répartition des valeurs que peut donner la balance. Mais cela est une autre histoire qu'il faudra raconter une autre fois.


Revenons donc à l'essence de  la question : quand nous pesons un objet, nous devons donner une valeur et une estimation de la précision avec laquelle on connaît cettte valeur. Cette règle est absolument générale, en sciences  de la nature. Pour toute expérience, pour toute mesure, nous devons afficher un résultat avec une estimation de sa qualité. Car, en réalité, on ne fait que très rarement des mesures pour des mesures, et l'on cherche surtout à comparer le résultat d'une mesure à un résultat d'une autre mesure ou bien à une valeur de référence.

Par exemple,  si l'on mesure la température dans un four, la mesure de la température sera généralement comparée à la valeur voulue de la température, ou à la température de consigne. La question très générale est donc de comparer.

Commençons par le plus simple, c'est-à-dire la comparaison d'un résultat de mesure avec une valeur  fixe. Par exemple, quand on fabrique des yaourt, si l'on affiche  sur le pot une masse de 100 grammes, il est admis que la masse d'un yaourt particulier ne soit pas exactement égale à 100 grammes, mais qu'elle en diffère moins qu'une certaine quantité. Là, la question est simple, puisque l'écart doit être inférieur à la tolérance.  Simple...  en apparence, puisque la valeur mesurée n'est pas exactement connue ! Supposons que l'on ait mesuré 95 grammes avec une incertitude de 5 grammes. La masse exacte du yaourt pourrait être de  100 ou de 90 grammes. Si la tolérance est de 5 gramme, la masse de 100 grammes conviendrait, mais la masse de 90 grammes serait intolérable.

Maintenant, si nous voulons savoir si deux objets ont la même masse, on sera conduit à peser chacun des objets et à obtenir deux  valeurs, deux résultats de mesure assortis chacun d'une incertitude, et voilà pourquoi on  enseigne dans les Grandes Ecoles d'ingénieurs et dans les université les calculs statistiques,  qui permettent d'estimer  si deux mesures sont ou non significativement différentes. Je ne vais pas faire dans un billet de blog la théorie de cette affaire, mais j'espère avoir indiqué correctement pourquoi, finalement, une mesure sans une estimation de l'incertitude sur cette mesure ne vaut  rien. En particulier pour la comparaison de deux mesures, des statistiques nécessitent l'estimation de cette incertitude, laquelle donne une indication de la répartition des mesures que l'on pourrait faire d'un objet.

Dans la vraie vie, dire que  deux  grandeurs sont différentes sous-entend toujours « significativement ». J'invite en conséquence tous les étudiants à se forger une espère de radar intellectuel  qui les conduira à sursauter quand ils verront une valeur sans estimation de l'incertitude avec laquelle cette valeur est connue. Certes, parfois, dans des tables, dans des livres, dans des publications, on verra des données sans incertitudes. Si ces livres sont de bonne qualité, c'est que cette incertitude est exprimée par les chiffres qui sont affichés, et qui doivent donc tous être "significatifs". Un bon enseignement des sciences de la nature commence donc par une discussion de cette question : que sont des chiffres significatifs ? Que sont les règles d'affichage des données ? 

Ces règles ne sont pas absolument intuitives, et elle doivent donc être apprises... et retenues pendant toute la scolarité… et après ! Rien de tout cela n'est difficile, mais cela demande un peu de soin, d'attention, et un entraînement progressif qui conduit à bien internaliser des réflexes,  en vue de bonnes pratiques scientifiques ou technologiques. 

2. L'identification des phénomènes

3. La caractérisation quantitative du phénomène considéré

4. La réunion des données de mesure en équations

5. La recherche de mécanismes

6 . La recherche de prévisions théoriques