L’apprentissage par renforcement (RL) est une branche de l’intelligence artificielle qui étudie comment un agent peut apprendre à prendre des décisions séquentielles dans un environnement incertain, en cherchant à maximiser une récompense cumulative. Contrairement à l’apprentissage supervisé, le RL ne dispose pas d’exemples étiquetés : l’agent explore, agit, et apprend par essais et erreurs à partir des retours qu’il reçoit. Cette approche combine des concepts issus des systèmes dynamiques, de la programmation dynamique et de la théorie des probabilités, et trouve des applications variées, du contrôle de robots à la recommandation de contenus, en passant par la gestion de ressources ou les jeux stratégiques.
Un cours en video vraiment extra-ordinaire est ici.
Les ressources du cours donnée dans le Master MIASHS Lyon 2 sont ci-dessous:
les slides sur les Processus de Décision Markovien et l'equation de Bellman sont ici