Résumé :
A l’ère de l’IA, il est naturel de se poser la question dans quelle mesure l’IA peut être utilisée pour analyser des données biologiques. Cette question sera au coeur du cours. Pour l’aborder, il est indispensable d’acquérir d’abord quelques bases du domaine, pour pouvoir ensuite en discuter de manière pertinente. Le cours est alors constitué de deux parties.
D’une part, nous découvrirons quelques méthodes fondamentales de l’apprentissage statistique et du deep learning, telles que les forêts aléatoires et les réseaux de neurones. Nous présenterons les modèles et les grandes idées derrières ces méthodes, ainsi que des techniques d’optimisation et leur mise en oeuvre en Python dans des TPs sur machine. Nous étudierons le rôle de ces méthodes dans différents domaines d'application en biologie et en médecine (par exemple, l'analyse d’images médicales ou de données génomiques).
D’autre part, nous discuterons les avantages, les inconvénients et les limites du ML et DL de manière générale et plus particulièrement pour les sciences du vivant, notamment par rapport aux approches statistiques traditionnelles (performance de prédiction vs interprétabilité ; approche boîte noire vs explainability ; modèle paramétrique vs non paramétrique ; impact écologique des modèles/du calcul/des bases de données).
L’objectif général du cours est de se familiariser avec ce domaine émergeant de l’IA afin d'être ensuite en mesure de prendre des décisions éclairées sur l’approche de modélisation à adopter dans des applications. Nous verrons que ce n’est jamais simple...
Thèmes abordés :
- Modèles nonlinéaires de machine learning (forêts aléatoires, bagging, boosting)
- Réseaux de neurones denses (perceptron multicouche), architecture, techniques d’optimisation
- Réseaux de neurones de convolution (CNN) pour le traitement d’images (médicales p.ex.)
- Réseaux de neurones récurrent (RNN) pour des données séquentielles (p.ex. génétiques)
- Discussion des avantages, inconvénients et limites du ML et DL en comparaison avec une modélisation statistique
- TP sur machine avec Python
Planning des séances :
Séance 1 : ML
Séance 2 : TP avec Pyhton
Séance 3 : DL : perceptron multicouche
Séance 4 : TP avec Pyhton
Séance 5 : DL : réseaux de neurones de convolution (CNN) et récurrents (RNN)
Séance 6 : TP avec Pyhton
Séance 7 : Discussion ML/DL vs statistique traditionnelle
Volume horaire :
7 séances de 3h = 21 heures.
Evaluation :
Note de TP + projet/présentation
Pré-requis :
- Notions de base de ML (modèles linéaires régularisés type lasso, validation croisée)
- Notions de base de Python (numpy, pandas)