Résumé du projet :
Dans la société contemporaine, le statisticien reçoit quotidiennement des données et questions provenant de champs aussi variés que la génomique, l'écologie, les sciences sociales ou l'astrophysique.
Les données en question sont souvent hétérogènes et de grande dimension. Dans ce contexte, la statistique mathématique a un rôle important à jouer. Des procédures adaptées à ces nouveaux types de données doivent non seulement être proposées, mais également être analysées, validées et comparées.
Les méthodes bayésiennes non-paramétriques occupent un rôle central en statistique appliquée et en apprentissage. Une des raisons à ceci est leur flexibilité : le statisticien attribue une loi de probabilité, dite loi a priori, aux paramètres inconnus du modèle et cette loi est mise à jour à l’aide des données par une opération de conditionnement. Ce faisant, le statisticien peut tirer parti de la structure des données dans sa construction de la loi a priori. Une autre raison du succès de ces méthodes est que de nombreux algorithmes ont été développés depuis une vingtaine d’années pour le calcul efficace des lois a posteriori, notamment plus récemment dans des contextes de grande dimension. La validation de ces méthodes par des résultats mathématiques de vitesses de convergence et d’optimalité notamment est un enjeu clé.
Motivées par de nombreuses applications pratiques, deux classes de modèles statistiques connaissent par ailleurs depuis quelques années un développement spectaculaire : les modèles dits de grande dimension, et les modèles de graphes aléatoires. Dans les modèles de grande dimension, le nombre de paramètres qui interviennent a priori peut dépasser le nombre d’observations. Il est cependant souvent possible d’estimer dans ces modèles en utilisant une structure parcimonieuse sous-jacente. Ces idées sont à la base notamment de procédures de tests multiples, qui jouent un rôle fondamental pour les applications, notamment en génomique pour l’interprétation des données de puces à ADN, mais aussi par exemple en traitement du signal pour le traitement de données en astrophysique. Les modèles de graphes aléatoires connaissent également un développement important, sous l’impulsion notamment des nombreuses applications pratiques des réseaux, comme l’étude de réseaux trophiques en écologie ou celle de la structure des réseaux sociaux ou du web. Le modèle à blocs stochastique fait ainsi partie des modèles les plus rencontrés dans ce contexte.
Le projet ANR BASICS entend proposer de nouvelles méthodes et de nouvelles analyses pour ces familles de modèles centraux en statistique moderne, en s'appuyant notamment sur la flexibilité des méthodes bayésiennes non-paramétriques. Ces dernières sont déjà très utilisées en pratique dans les récents algorithmes sur les modèles de grande dimension, en particulier en tests multiples où la calibration est souvent réalisée par des approche bayésiennes empiriques. Cependant, l’analyse de la convergence et de l’optimalité de ces méthodes a été peu explorée jusqu’à présent. L’enjeu est pourtant essentiel, puisqu’il s’agit de déterminer notamment quelles lois a priori mèneront à une estimation optimale, ou comment calibrer les paramètres de ces lois pour atteindre cet objectif. Le projet portera une attention particulière à l'étude de structures aléatoires : d’une part celles multi-échelles intervenant notamment dans l’analyse en ondelettes des signaux, pour laquelle des lois a priori avec une structure d’arbre sont particulièrement naturelles; d’autre part les graphes aléatoires, qui seront analysés par des méthodes bayésiennes et non-bayésiennes. Enfin, une idée clé du programme de recherche du projet BASICS est celle de la quantification de l’incertitude. En effet, l’obtention de régions de confiance est un atout fondamental pour l’interprétation des résultats statistiques. Les méthodes bayésiennes proposent naturellement une quantification de l’incertitude par l’intermédiaire des régions dite de crédibilité. Le projet entend donner des conditions sous lesquelles ces régions de crédibilité quantifient effectivement un niveau de confiance.