Introduction au NLP : un texte d'introduction très bien fait est ici
Nous allons utiliser le cours dont les ressourses sont ici
Un texte détaillant Word2vec est ici.
Les ressources du cours donné l'année dernière sont ci-dessous:
Un blog très intéressant de l'Université de Columbia: ici et ici et ici et ici et ici
Les slides du cours donné à l'Université GeorgiaTech sont ici : Slides
Introduction à Python
Classification de textes à partir de fréquences de mots : Slides, Slides (Rochelle Terman, se base sur le modèle logistique et le LASSO), code LASSO, données.
Word embeddings : Slides et code.
Classification de textes par réseaux de neurones : Slides, et Pytorch + LAB.
Language modelling : Slides, (des ressources complémentaires sont les Slides et leur suite: Slides) (pas fait en classe par manque de temps) et un post du Financial Times : https://ig.ft.com/generative-ai/ . Un code très bien fait en python est ici.
Réseaux de neurones récurents et Transformers: slides . Une video sur les RNN est ici (une autre en français est ici) et une sur les LSTM ici. Un texte sur la backpropagation pour les Réseaux de Neurones récurrents est ici. Un texte expliquant les LSTM est ici. Une implémentation avec Keras est ici. Un lien vers le fine tuning est ici. Le cours de M2 sera l'occasion d'approfondir les Transformers avec Adrien Guille !
Plusieurs LAB en python sont disponibles ici :
Introduction à la prise en main de données textuelles est ici
Word embeddding ici
La classification de séquences est mise en oeuvre ici.
Traduction automatique ici.
Une très bonne introduction au text minining sous R est ici.
Projet : le projet consistera à explorer le dépôt https://github.com/karpathy/minGPT et de comprendre comment réaliser la finetuning. Si ce projet est un peu trop difficile, vous pourrez en deuxième option vous tourner vers le notebook LAB de Huggingface, le commenter avec précision puis à l'utiliser sur des données que vous trouverez sur internet.
Le TD1 est ici (il contient des solutions qui vous mettrons en selle au début !)
Le TD2 est ici
Le TD3 est ici.
Le contrôle de l'année dernière est ici. Le DM de cette année est ici.