NLP for Social Sciences

Introduction au NLP : un texte d'introduction très bien fait est ici 

Nous allons utiliser le cours dont les ressourses sont ici

Un texte détaillant Word2vec est ici


Les ressources du cours donné l'année dernière sont ci-dessous: 

Les slides du cours sont ici : Slides

Introduction à Python 

Classification de textes à partir de fréquences de mots : SlidesSlides (Rochelle Terman, se base sur le modèle logistique et le LASSO), code LASSO, données

Word embeddings : Slides et Slides additionnels, code.

Classification de textes par réseaux de neurones : Slides, et Pytorch + LAB.

Language modelling : Slides et suite des Slides (pas fait en classe par manque de temps) et un post du Financial Times : https://ig.ft.com/generative-ai/ . Un code très bien fait en python est ici.

Réseaux de neurones récurents : slides (première partie), slides (deuxième partie) et application en analyse de données textuelles. Une video sur les RNN est ici  (une autre en français est ici) et une sur les LSTM ici. Un texte sur la backpropagation pour les Réseaux de Neurones récurrents est ici. Un texte expliquant les LSTM est ici. Une implémentation avec Keras est ici et une avec pytorch est ici. 

Introduction aux transformers : slides et slides et un lien vers le fine tuning est ici. Le cours de M2 sera l'occasion d'approfondir les Transformers avec Adrien Guille ! 

Une très bonne introduction au text minining sous R est ici.

Projet : le projet consistera à explorer le dépôt https://github.com/karpathy/minGPT et de comprendre comment réaliser la finetuning. Si ce projet est un peu trop difficile, vous pourrez en deuxième option vous tourner vers le notebook LAB de Huggingface, le commenter avec précision puis à l'utiliser sur des données que vous trouverez sur internet. 

Le TD1 est ici (il contient des solutions qui vous mettrons en selle au début !)

Le TD2 est ici

Le TD3 est ici

Le contrôle de l'année dernière est ici