Séance du 27 septembre 2010

Lundi 27 septembre 2010

Organisateurs: Vincent Rivoirard et Liliane Bel

14h00 Fadoua Balabdaoui (Université Paris Dauphine)

Représentation aléatoire de la distance maximale entre un Pont Brownien et son majorant concave

Résumé : Nous donnons une nouvelle représentation aléatoire de la distance maximale entre un Pont Brownien et son majorant concave qui nous permettra d'établir une expression plus explicite pour sa fonction de répartition et de sa densité. Cette distance maximale est liée à des applications en statistique non paramétrique et apparaît dans des problèmes de test de monotonie d'une courbe de régression (ou d'une densité) définie sur un compact.

15h00 Mahendra Mariadassou (INRA MIG Jouy-en-Josas)

Méthodes de reconstruction d'arbres phylogénétiques robustes

Résumé : Les arbres phylogénétiques représentent les liens de parenté entre espèces d'un même groupe et sont utilisés dans de nombreuses domaines de la biologie. Il existe de nombreuses méthodes pour estimer un arbre à partir

d'un alignement de séquences génétiques, toutes basées sur l'idée que deux espèces sont d'autant plus proches dans l'arbre qu'elles ont des séquences similaires. Aucune de ces méthodes n'étant parfaite, il est nécessaire de valider et éventuellement de réestimer l'arbre avant de l'utiliser. Nous proposons ici une méthode de validation complémentaire à la méthode classique du bootstrap. Nous introduisons tout d'abord l'estimation d'arbre par maximum de vraisemblance, les modèles utilisés pour décrire l'évolution des séquences et la méthode de validation par bootstrap. Nous nous intéressons ensuite à l'impact que capture mal le bootstrap des données aberrantes sur l'arbre avant de présenter une méthode, basée sur les fonctions d'influence, pour identifier les données aberrantes. Nous illustrons enfin sur deux études de cas comment ces méthodes permettent, en isolant les données aberrantes, d'améliorer l'estimation de l'arbre et comment les données aberrantes nous renseignent sur certaines défaillances des modèles d'évolution utilisés.

16h00 Jean-Yves Audibert (Imagine, Université Paris Est et projet Willow)

Robust estimation in linear least squares regression

Résumé : We consider the problem of predicting as well as the best linear combination of d given functions in least squares regression, and variants of this problem including constraints on the parameters of the linear combination.When the input distribution is known, there already exists an algorithm having an expected excess risk of order d/n, where n is the size of the training data. Without this strong assumption, standard results often contain a multiplicative $\log n$ factor, and require some additional assumptions like uniform boundedness of the d-dimensional input representation and exponential moments of the output. This talk provides new risk bounds for the ridge estimator and the ordinary least squares estimator, and their variants. It also provides a robust shrinkage procedure with convergence rate d/n (i.e., without the logarithmic factor) in expectation and in deviations, under reasonable Kurtosis assumptions. The key common surprising factor of these results is the absence of exponential moment condition on the output distribution while achieving exponential deviations. All risk bounds are obtained through a PAC-Bayesian analysis on truncated differences of losses. Some of these results are not particular to the least squares loss, and can be generalized to similar strongly convex loss functions. Experimental results strongly back up our main algorithmic proposal.