NLP for Social Sciences
Introduction au NLP : un texte d'introduction très bien fait est ici
Nous allons utiliser le cours dont les ressourses sont ici
Un texte détaillant Word2vec est ici.
Les ressources du cours donné l'année dernière sont ci-dessous:
Les slides du cours sont ici : Slides
Introduction à Python
Classification de textes à partir de fréquences de mots : Slides, Slides (Rochelle Terman, se base sur le modèle logistique et le LASSO), code LASSO, données.
Word embeddings : Slides et Slides additionnels, code.
Classification de textes par réseaux de neurones : Slides, et Pytorch + LAB.
Language modelling : Slides et suite des Slides (pas fait en classe par manque de temps) et un post du Financial Times : https://ig.ft.com/generative-ai/ . Un code très bien fait en python est ici.
Réseaux de neurones récurents : slides (première partie), slides (deuxième partie) et application en analyse de données textuelles. Une video sur les RNN est ici (une autre en français est ici) et une sur les LSTM ici. Un texte sur la backpropagation pour les Réseaux de Neurones récurrents est ici. Un texte expliquant les LSTM est ici. Une implémentation avec Keras est ici et une avec pytorch est ici.
Introduction aux transformers : slides et slides et un lien vers le fine tuning est ici. Le cours de M2 sera l'occasion d'approfondir les Transformers avec Adrien Guille !
Une très bonne introduction au text minining sous R est ici.
Projet : le projet consistera à explorer le dépôt https://github.com/karpathy/minGPT et de comprendre comment réaliser la finetuning. Si ce projet est un peu trop difficile, vous pourrez en deuxième option vous tourner vers le notebook LAB de Huggingface, le commenter avec précision puis à l'utiliser sur des données que vous trouverez sur internet.
Le TD1 est ici (il contient des solutions qui vous mettrons en selle au début !)
Le TD2 est ici
Le TD3 est ici.
Le contrôle de l'année dernière est ici