Lundi 22 mars 2010
Organisateurs: Vincent Rivoirard et Liliane Bel
14h00 Robin Genuer (Université Paris Sud)
Bornes de risque pour les forêts purement uniformément aléatoires.
Résumé: Introduites par Leo Breiman en 2001, les forêts aléatoires sont une méthode statistique très performante. D'un point de vue théorique, leur analyse est difficile, du fait de la complexité de l'algorithme. Pour expliquer ces performances, des versions de forêts aléatoires simplifiées (et donc plus faciles à analyser) ont été introduites : les forêts purement aléatoires. Dans cet article, nous introduisons une autre version simplifiée, que nous appelons forêts purement uniformément aléatoires. Dans un contexte de régression avec une seule variable explicative, nous montrons que les arbres aléatoires ainsi que les forêts aléatoires atteignent la vitesse de convergence minimax. Et plus important, nous prouvons que les forêts aléatoires améliorent les performances des arbres aléatoires, en réduisant la variance des estimateurs associés d'un facteur trois quarts.
15h00 Tony Cai (University of Pennsylvania)
Fuzzy Hypotheses, Hermite Polynomials, and Optimal Estimation of a Nonsmooth Functional
Abstract: In this talk I will discuss some recent work on optimal estimation of nonsmooth functionals. These problems exhibit some interesting features that are significantly different from those that occur in estimating conventional smooth functionals. This is a setting where standard techniques fail. I will discuss a newly developed general minimax lower bound technique that is based on testing two fuzzy hypotheses and illustrate the ideas by focusing on the problem of optimal estimation of the l_1 norm of a high dimensional normal mean vector. An estimator is constructed using approximation theory and Hermite polynomials and is shown to be asymptotically sharp minimax. This is joint work with Mark Low.
16h00 Merlin Keller (ENGREF-EDF R&D)
Inférence sur des données mal localisées spatialement: Application à l'analyse de données d'IRM fonctionnelle multi-sujets
Résumé: L'imagerie par résonance magnétique fonctionnelle (IRMf) permet d'acquérir des images tridimensionnelles de l'activité cérébrale d'un sujet soumis à une séquence de stimulations sensorielles. L'analyse statistique des ces données permet de détecter les aires cérébrales actives en réponse aux différentes stimulations.Lorsque plusieurs sujets ont été recrutés pour une expérience, l'analyse de groupe consiste à généraliser les résultats individuels à la population d intérêt dont sont issus les sujets. La variabilité morphologique du cerveau humain rend cependant la comparaison des images acquises sur les différents sujets problématique.L'approche usuelle pour contrer cette difficulté consiste à recaler les sujets dans un référentiel commun, puis de comparer les cerveau séparément en chaque point de ce référentiel. Cette étape de recalage n'étant jamais parfaite, il en résulte une incertitude sur la localisation spatiale de chaque sujet.Nous proposons dans un premier temps d'étendre le modèle classique d'analyse de groupe afin de prendre en compte cette incertitude spatiale. Dans un deuxième temps, nous développons à partir de ce modèle une nouvelle approche de détection d'aires cérébrales actives, basée sur des régions d intérêt prédéfinies plutôt que sur les procédures de seuillage couramment utilisées.