La première dimension qu'un enseignant-chercheur peut investiguer concerne les résultats de l'apprentissage. Il s'intéresse à la question de la qualité des apprentissages. Bon nombre d'articles et de contributions scientifiques ont pour objet la plus-value au travers l'évaluation de la performance des apprenants. Dans ce type d'analyse, on peut distinguer quatre indicateurs complémentaires : la progression, le degré de maîtrise, le transfert et l'équité.
La progression concerne la valeur ajoutée du dispositif sur le plan individuel. Elle correspond à l'amplitude du développement de la compétence suite à l'apprentissage. L’observation de cette progression peut s’envisager à l’aide d’un dispositif de type « prétest/posttest » permettant de calculer un gain relatif qui correspond au rapport de ce que l’élève a gagné à ce qu’il aurait pu gagner au maximum (D’Hainaut, 1975). Cette évaluation du gain réel pondéré par le gain maximum qui est possible permet d’apprécier l’efficacité intrinsèque du dispositif. Ce rapport entre la progression possible et la progression observée donne ainsi la possibilité de comparer les progrès des élèves, quel que soit leur niveau de départ. Le calcul du gain relatif (Posttest-Prétest)/(Maximum-Prétest) est possible à la condition que le score au prétest soit inférieur ou égal au score du posttest. Par exemple, l'élève a 2/10 au prétest et 6/10 au posttest. Il a un gain de 50 % ((6-2)/(10-2)). Si le score au prétest est supérieur au posttest, il convient alors de calculer une perte relative (Posttest-Prétest/Prétest). Par exemple, l'élève a 5/10 au prétest et 4/10 au posttest. Il a une perte relative de 20 % ((4-5)/5)). En lien avec ce principe de progression, il peut être pertinent de mettre en évidence le nombre d'élèves ayant évolué positivement, ayant régressé et ayant stagné.
Pour apprécier l'efficacité intrinsèque, nous pouvons également utiliser la taille de l'effet (d de Cohen) qui correspond à la différence entre le post-test et pré-test divisé par l'écart-type de l'ensemble des données (Hattie, 2009). Cohen considère l'échelle suivante pour apprécier l'efficacité d'une intervention : faible (0,2), moyenne (0,5), large (0,8) et très large (1,3). Cette démarche peut être intéressante à appliquer pour comparer la puissance de différentes interventions pédagogiques.
Le degré de maîtrise correspond tout simplement au niveau atteint par les élèves au terme de l'apprentissage. Si nous référons à la pédagogie de la maîtrise, il est communément admis que ce niveau doit être proche de 80 %. Cette maîtrise peut être envisagée à la fois au niveau individuel ou au niveau d'une production collective dans le cadre d'un apprentissage collaboratif. Cette mesure peut être envisagée soit juste après la formation soit de manière différée. Mesurer la maîtrise après quelques semaines est particulièrement pertinent. Au cours du temps, un mécanisme d'oubli se met en effet en oeuvre. Il induit que nous sommes de moins en moins performants pour mobiliser la compétence que nous venons d'acquérir. Les formations les plus efficaces sont celles dont les bénéfices sont les plus durables.
En lien avec la logique de compétences, il est nécessaire d'observer la capacité de l'apprenant à réutiliser dans une autre situation les acquis de la formation. Cette évaluation du transfert des apprentissages doit correspondre à une modalité différente que l'évaluation proposée au terme de la formation.
Il importe enfin d’analyser l’effet du dispositif sur l’équité à partir d’une analyse de l’évolution de la variance entre le prétest et le posttest. Il est commode d'utiliser comme indice le coefficient de variation également appelé le taux d'hétérogénéité qui correspond au rapport entre l'écart-type et la moyenne. Plus ce coefficient de variation est faible, plus la distribution est homogène (plus les individus sont proches les uns des autres). Une diminution du coefficient de variation entre le prétest et le posttest signifie que le dispositif permet de réduire les écarts initiaux entre les élèves. Une autre information utile est la corrélation entre le prétest et le gain relatif. Elle permet, de mettre en évidence pour quel type d’apprenant le dispositif a été le plus utile. Une corrélation positive entre le gain relatif et le prétest nous indiquera que le dispositif a permis de faire progresser les plus forts au départ. A contrario, une corrélation négative nous informera que celui-ci a plutôt été bénéfique pour les plus faibles.
Le fichier Excel téléchargeable ici permet de traiter ces différentes statistiques.
Différentes démarches complémentaires peuvent guider la conception de l'outil d'évaluation. Au niveau de la nature des questions, il peut être intéressant de faire référence à un modèle taxonomique de manière à affiner l'analyse. En termes de modalités de réponse, il peut être utile de varier le type de questionnement proposé à l'élève en proposant de manière complémentaire à la fois des questions ouvertes et des questions fermées. Enfin, la prise en compte des degrés de certitude donne l'occasion de dépasser le caractère binaire de l'évaluation : réponse correcte vs réponse incorrecte.
Issues des théories en technologie de l'éducation, les taxonomies constituent des outils intéressants pour guider la définition des objectifs. Elles donnent en effet la possibilité à l'enseignant d'une part de préciser le degré de complexité réelle de la tâche et d'autre part de varier les opérations cognitives sollicitées chez les apprenants. On peut considérer que les taxonomies se situent dans la logique des compétences dans la mesure où l'on considère que l'atteinte de la compétence se situe aux niveaux les plus élevés des taxonomies. Amener les élèves à être compétents, c'est donc travailler sur tous les niveaux taxonomiques et faire en sorte que même les niveaux les plus élevés soient atteints par un maximum d'élèves (Gérard & Roegiers, 2002). Plusieurs modèles sont disponibles dans la littérature pour guider la conception d'un outil d'évaluation.
Le modèle de Tirtiaux est intéressant à considérer dans la mesure où il permet d'évaluer une même compétence en proposant différentes tâches mobilisant la pensée convergente et la pensée divergente. Il permet de moduler les tâches d'apprentissage en fonction du degré d’initiative laissé aux élèves. Dans cette progression, l’élève est guidé pour passer d’un mode de pensée convergente, basée sur l’application des connaissances pour produire une réponse correcte (problème fermé) ; vers un mode de pensée divergente - fondée sur l’utilisation des connaissances, du raisonnement, et de la créativité afin de produire une réponse originale (problème ouvert). La taxonomie de Tirtiaux se structure autour de sept niveaux ordonnés (reproduire, reconnaître, ajuster, appliquer, achever d’initiative, imiter et inventer) allant du plus simple (initiative nulle) au plus complexe (initiative optimale). Cette progression permet d'établir la relation entre un savoir ou savoir-faire et une situation inédite, qui nécessite la mobilisation de ce savoir ou savoir-faire. Bien que cet outil semble quelque peu opposer la pensée convergente et la pensée divergente, il est important de noter que ces deux modes de pensée ne s'opposent en réalité pas, mais se complètent. Une démarche de résolution de problème passe souvent par la divergence pour ensuite converger vers une solution réalisable.
Le modèle de Bloom propose une classification des degrés de maîtrise des connaissances. Cette hiérarchie s'organise sur six niveaux qui vont de la simple restitution à la manipulation complexe du contenu : connaissance, compréhension, application, analyse, synthèse et évaluation. Vous pouvez générer automatiquement à partir de cet outil des objectifs pédagogiques qui s'appuient sur ce modèle. Selon Grubert & Verniers (2017, p.22), « même si les étages de la pyramide de Bloom sont présentés de manière hiérarchique, cette hiérarchie ne porte que sur la complexité des gestes mentaux à exécuter et pas sur l’ordre idéal dans lequel les aborder ». Le modèle de Bloom peut être mis en relation avec la progression dans la connaissance proposée par Biggs (1982) qui associe 5 niveaux de maîtrise spécifiques à des verbes opérationnels.
Le modèle de D'Hainaut cherche quant à lui à articuler les rapports entre la pensée en action, son objet et son produit. Il est intéressant à considérer dans la mesure où il facilite la formulation d'objectifs opérationnels précis. Il décrit six types de tâches différentes : reproduction, conceptualisation, application, exploration, mobilisation et résolution de problèmes.
Les questions de sélection ou questions à réponse choisie ont pour caractéristique commune de présenter à l'apprenant une série de propositions parmi laquelle il devra choisir (question à choix dichotomique ou à choix multiple), établir un ou plusieurs liens (question à appariement) ou qu'il devra organiser selon un principe explicite (par exemple : une question à ordonnancement).
Les questions de production exigent de l'élève qu'il élabore puis rédige sa réponse avant de la soumettre au correcteur pour qu'elle soit évaluée en fonction de critères plus ou moins explicites. Le principal paramètre utilisé afin d'établir des distinctions parmi les questions de production repose sur l'étendue et sur la forme de la réponse attendue. Ainsi, on distinguera les questions à réponse courte, à réponse longue, à réponse élaborée, mais aussi les schémas à compléter, les phrases à compléter et les textes lacunaires.
Pour générer des tâches, vous pouvez vous appuyer sur le tableau suivant qui articule la taxonomie de Bloom et de Tirtiaux (identifier la solution, adapter la solution proposée, achever la solution proposée et produire la solution). Plus vous vous situez dans la partie gauche du tableau, plus vous sollicitez la pensée convergente chez l'apprenant. Si vous vous positionnez dans la partie inférieure droite du tableau, alors vous solliciterez davantage la pensée divergente de l'élève.
Une réponse correcte avec une certitude élevée par rapport à celle-ci correspond évidemment à un niveau de maîtrise plus élevé qu’une réponse correcte associée à un faible niveau de certitude. L’analyse de la conviction avec laquelle l’apprenant a répondu offre ainsi la possibilité de mesurer de manière subtile le niveau opérationnel de ses connaissances (Leclercq, 1998).D'un point de vue pratique, demander à un apprenant de donner son degré de certitude permet aux enseignants et aux chercheurs d'identifier l'incompétence dangereuse (réponse incorrecte avec un degré de certitude élevé), l'incompétence reconnue (réponse incorrecte avec un degré de certitude faible), la compétence non opérationnelle (réponse correcte avec un degré de certitude faible) et la compétence opérationnelle (réponse correcte avec un degré de certitude élevé).
En nous appuyant sur les travaux de Leclercq & Poumay (2007), l'utilisation des degrés de certitude donne la possibilité de calculer un score de confiance qui correspond à la somme des degrés de certitude fournis aux réponses correctes (idéalement, cette somme devrait être la plus élevée possible). À partir de ces informations, nous avons alors l’opportunité de calculer un score de prudence qui correspond à la somme des degrés de certitude fournis aux réponses incorrectes (idéalement, cette valeur devrait être la plus faible possible).
Vous pouvez découvrir l'application de cette démarche dans les deux études suivantes : étude 1 et étude 2. Vous pouvez également prendre connaissance de cet article qui présente l'application de ce principe dans le domaine médical.
Quand les solutions sont à sélectionner (QCM), il peut être intéressant de solliciter la vigilance cognitive des apprenants. Cette sollicitation passe par l'intégration de 4 propositions complémentaires que l'apprenant doit prendre en considération.
Vous pouvez découvrir des exemples de l'application de ces principes en téléchargeant le fichier suivant.
D'un point de vue docimologique, deux indices sont utiles pour valider l'outil d'évaluation : le degré de difficulté et l'indice de discrimination. Le fichier disponible ici en téléchargement donne la possibilité de les calculer automatiquement. Le fichier est adapté en fonction de votre questionnaire d'évaluation.
Pour Dessus (2014), il est nécessaire que le questionnaire comprenne quelques questions plutôt faciles, de manière à rassurer l’élève ou l’étudiant. En revanche, une trop grande proportion de questions faciles amène à un « effet-plafond » (et un effet-plancher pour des questions trop difficiles) et donc ne représente pas une tâche suffisamment consistante et cognitivement engageante pour la plupart des élèves. L’indice Pi (variant entre 0 et 1) est la proportion d’élèves ayant répondu correctement à un item i. Un item est d’autant plus facile qu’il a un P élevé. De plus, il faudrait que la majorité des items aient un P se distribuant autour de 0,5. Comment apprécier cette valeur ? McAlpine (2002) considère que les réponses trop difficiles (P < 0,15, soit lorsque moins de 15 % des participants ont répondu juste à la question donnée) ou trop faciles (P > 0,85, soit lorsqu'au moins 85 % y ont répondu juste) peuvent être écartées du QCM. Les premières sont donc « impossibles », les secondes « triviales » et donc ni l’une ni l’autre ne permettent la mesure efficace des compétences des personnes passant le QCM. Il faut noter que, selon les auteurs, ces valeurs varient : 80 % et 25 % (Bodner, 1980).
Pour Dessus (2014, P.36), le but d’un questionnaire peut être de mesurer une compétence/connaissance donnée, et donc de pouvoir discriminer les élèves en fonction de cette dernière. L’indice de discrimination (ID) est une variante du coefficient de corrélation de Pearson et est nommé r point-bisérial (rpbis), à utiliser lorsque l’une des deux variables est dichotomique (en effet, les scores à un item sont soit 0 soit 1). Il varie, comme tout coefficient de corrélation, entre –1 et 1, et correspond au coefficient de corrélation entre un item et le score total au test. La valeur du rpbis d’un item donné peut être :
L'usage d'un indice de discrimination implique trois idées importantes :
Plusieurs outils technologiques disponibles sur Internet peuvent être utilisés pour recueillir les données (pas d'encodage manuel et forcer l'utilisateur à fournir une réponse) et pour faciliter le traitement de celles-ci par la suite (avec l'exportation des données dans un tableau structuré) : Google Forms, Socrative, Plickers. Oppia est un outil en ligne permettant de prendre des données. Il offre la possibilité de traiter des structures conditionnelles et de proposer ainsi des parcours différenciés aux apprenants. Vous pouvez tester votre maîtrise de cette section du cours avec les différentes séquences créées avec Oppia par les étudiants de la promo 2016-2017..