Partie 2

L'intelligence artificielle

Apprentissage par renforcement

Pour cette activité, nous allons reprendre le jeu présenté sur la page précédente : le jeu de Nim.

Un joueur humain va affronter une machine virtuelle qui est représentée par des gobelets et des jetons numérotés.

Cette machine, au fur et à mesure des parties, va apprendre à gagner en éliminant toutes les situations perdantes. Elle va ainsi perfectionner son algorithme, par essais/erreurs pour finir par battre systématiquement la personne qui joue contre elle.

  • Règles du jeu :

Les règles du jeu sont identiques à celles du premier jeu. Il est possible de prendre 1, 2 ou 3 objets à chaque fois. Le joueur (la personne ou la machine) qui prend le dernier objet a gagné.
Pour une question de temps et de solutions possibles, nous n'allons cette fois-ci utiliser que 8 objets.

La "machine" est constituée d'autant de gobelets qu'il y a d'objets à prendre au départ. Chaque gobelet est numéroté, de 1 à 8 dans notre cas, et contient trois jetons, numérotés de 1 à 3 (à l'exception du gobelet 1 qui ne contient qu'un jeton numéro 1 et du gobelet 2 qui ne contient que deux jetons numérotés 1 et 2).

Lorsque c'est à la machine de jouer, il faut piocher un jeton dans le gobelet dont le numéro correspond au nombre d'objets restants : le numéro qu'il porte indique le nombre d'objets pris par la machine. Chaque jeton pioché doit être posé devant le gobelet qui le contenait, de façon à conserver une trace des coups joués.

Cependant, en parallèle du déroulement "classique" du jeu de Nim, la machine doit aussi apprendre à gagner.
Pour cela, elle va apprendre de ses erreurs. À la fin de chaque partie, tous les jetons piochés seront remis dans les gobelets qui les contenaient sauf si la partie a été perdue : dans ce cas, le dernier jeton pioché, celui qui a fait perdre, ne sera pas remis en jeu, mais écarté.
Ainsi, en enchainant les parties, la machine va progressivement éliminer tous les coups perdants.
Au cours de cette procédure, un gobelet va se retrouver vide : tous les coups joués depuis cette position amènent forcément à un échec. Lors des parties suivantes, il faudra alors également mettre de côté le dernier carton pioché avant d'arriver sur cette position.


  • Matériel :

- 8 gobelets

- 8 objets (bouchons...)

- 8 fois 1 jeton (ou carton, ou morceau de papier...) portant le numéro 1

- 7 fois 1 jeton portant le numéro 2

- 6 fois 1 jeton portant le numéro 3


  • Quels sont les concepts travaillés ?

Les concepts d'algorithme et d'apprentissage par renforcement sont travaillés à travers ce jeu.


Pour mieux vous représenter comment mettre en oeuvre cette activité, vous pouvez visionner cette vidéo jusqu'à 15'39''.

Apprentissage par renforcement

Il s'agit d'un processus basé sur l'expérience. Au départ, l'agent autonome (IA) ne connait que les règles, mais pas la stratégie optimale. C'est en multipliant les situations d'apprentissage que, progressivement, les mauvais choix vont être écartés et les bons renforcés.

Pour rester dans le domaine des jeux, les algorithmes qui sont parvenus à battre les meilleurs humains au backgammon ou aux échecs s'appuyaient sur ce type d'apprentissage.

Dans le cas du jeu de Nim, l'algorithme optimal étant simple en raison du nombre limité de coups possibles, l'apprentissage par renforcement n'est pas réellement approprié. Cependant, la situation pédagogique qu'il permet offre la possibilité de le modéliser facilement et donc d'en faciliter la compréhension.

En classe, nous vous suggérons de débuter par cette activité, avant de formaliser l'algorithme gagnant avec les élèves (activité présentée sur la page précédente).

Avant de commencer, vous pouvez par exemple faire une seule partie classique du jeu de Nim, en démonstration, sans commentaire particulier, de façon à expliciter son déroulement, puis enchainer avec cette activité sur l'apprentissage par renforcement avant de revenir sur le jeu classique.

Ainsi, cela permet de débuter par un premier questionnement en lien avec l'intelligence artificielle - comment une machine aussi simple peut-elle être capable d'apprendre, donc paraitre intelligente ? - avant de focaliser sur les concepts intrinsèques, les algorithmes notamment, en s'appuyant sur la même situation.