Ce projet ANR comprend trois partenaires
LPSM (Paris) : responsable de pôle Ismaël Castillo
LMO (Orsay) : responsable de pôle Elisabeth Gassiat
IMT (Toulouse) : responsable de pôle François Bachoc
Résumé du projet :
En statistique et apprentissage modernes, les données sont souvent observées dans un espace ambiant de grande dimension. Des méthodes comme les forêts aléatoires ou les réseaux de neurones profonds ont récemment permis des performances remarquables dans ces cadres. Une raison est que les données peuvent souvent être expliquées par une structure de plus petite dimension effective.
Dans ce contexte, les méthodes bayésiennes comme les lois spike-and-slab, les arbres de régressions additifs bayésiens (BART), les réseaux de neurones bayésiens et les processus gaussiens profonds sont fréquemment utilisées en statistique et pour des applications comme l’astrophysique ou la génomique. Parmi les raisons de leur popularité on peut citer : leur flexibilité, puisqu’il est relativement aisé de modéliser une structure inconnue sous-jacente à travers une loi a priori; la palette étendue de méthodes de simulation disponibles, en particulier variationnelles; leur capacité à quantifier l’incertitude à travers les régions de crédibilité. Les succès empiriques sont nombreux, mais il y a un besoin important de compréhension et de validation de ces méthodes. Mathématiquement, il s’agit de comprendre et de démontrer sous quelles conditions de tels algorithmes sont effectivement pertinents.
Le projet BACKUP obtiendra des garanties théoriques pour ces méthodes, suivant trois axes de recherche. Le premier concerne l’utilisation de lois a posteriori bayésiennes dans des modèles de grande dimension et à variables latentes, pour résoudre des questions de tests multiples et de sélection de variables. Le second verra l’obtention de résultats fondateurs pour les forêts aléatoires et les réseaux de neurones bayésiens profonds, pour les loi a posteriori et leurs pendants variationnels. Le troisième répondra à la question fondamentale de la quantification de l’incertitude : des régions de confiance optimales seront obtenues à partir de régions de crédibilité bayésiennes bien choisies.