Machine learning pour l'économétrie

Co-écrit avec Christophe Gaillac

Version française sortie le 23 octobre 2023 aux éditions Economica: acheter en ligne.

Des scripts et des éléments de correction des exercices sont disponibles sur github.

Machine learning pour l’économétrie est un ouvrage destiné aux économistes qui souhaitent appréhender les techniques de machine learning modernes – de leurs performances en matière de prédiction au traitement révolutionnaire des données non structurées – afin d’établir des relations de causalité à partir des données.

Il aborde la sélection automatique de variables dans divers contextes de grande dimension, l’estimation de l’hétérogénéité des effets du traitement, les techniques de traitement du langage naturel (NLP), ainsi que le contrôle synthétique et les prévisions macroéconomiques.

Les fondements des méthodes de machine learning sont introduits de manière à proposer à la fois un traitement théorique approfondi de la façon dont elles peuvent être utilisées en économétrie, ainsi que de nombreuses applications économiques. Chaque chapitre contient une série d’exemples empiriques, de programmes et d’exercices pour faciliter l’adoption et la mise en œuvre des techniques par le lecteur.

Ce livre s’adresse aux étudiants de master ou de grandes écoles, aux chercheurs et aux praticiens désireux de comprendre et perfectionner leur connaissance du machine learning pour l’appliquer dans un contexte traditionnellement réservé à l’économétrie.

Christophe Gaillac est chercheur à l'Université d'Oxford. Jérémy L'Hour est chercheur chez Capital Fund Management (CFM). Tous deux sont Administrateurs de l'Insee, chercheurs affiliés au Centre de Recherche en Économie et Statistique (CREST) - Institut Polytechnique de Paris, et ont enseigné le cours de Machine learning pour l'économétrie à l'ENSAE Paris pendant plusieurs années.

Il est composé de quinze chapitres, regroupés en six parties.

Table des matières :

Introduction

PARTIE I : Prérequis statistiques

Outils statistiques
Prérequis sur l'inférence causale

PARTIE II : Grande dimension et sélection de variables

Grande dimension, sélection de variables et inférence post-sélection
Généralisation et méthodologie
Grande dimension et endogénéité : variables instrumentales
Pour aller plus loin

PARTIE III : Hétérogénéité des effets du traitement

Inférence sur les effets hétérogènes du traitement
Apprendre la politique optimale

PARTIE IV : Effets agrégés et prévision macroéconomique

La méthode du contrôle synthétique
Prévision macroéconomique en grande dimension

PARTIE V : Économétrie des données textuelles, traitement du langage naturel

Travailler avec des données textuelles
Représentation distribuée des mots
Apprentissage supervisé : codage automatique et appariement

PARTIE VI: Exercices

Exercices

Google Sites

Report abuse