Publications‎ > ‎

PhD Thesis

Titre

 "Estimation par minimum de contraste régulier et heuristique de pente en sélection de modèles"
 
Résumé

Cette thèse est consacrée à l'étude théorique d'une méthode de calibration automatique des pénalités en sélection de modèles. Cette méthode se base sur une heuristique, appelée "heuristique de pente", qui stipule l'existence d'une pénalité minimale telle que la solution optimale du problème de pénalisation vaut deux fois celle-ci. En pratique, on estime la pénalité optimale en estimant préalablement la pénalité minimale, caractérisée par un changement brutal dans le comportement de la procédure de sélection de modèles autour de ce seuil de pénalisation.
    L'analyse théorique du phénomème de pente se base sur un contrôle à la constante près des déviations de l'excès de risque et de l'excès de risque empirique des estimateurs considérés, mesurant respectivement leur performance en prédiction et leur performance empirique. Ceci suggère en premier lieu, une forte spécification de la structure du problème étudié.
    Nous validons l'heuristique de pente dans un cadre général qui s'articule autour d'une notion nouvelle en M-estimation, que nous appelons "contraste régulier", et nous développons une méthodologie de preuve inédite, permettant de traiter à la fois la question des bornes supérieures et des bornes inférieures de déviation des excès de risque à modèle fixé. Nous retrouvons ainsi la plupart des résultats déjà connus sur l'heuristique de pente. En effet, nous donnons trois exemples d'estimation par minimum de contraste régulier, à savoir la régression par moindres carrés sur des modèles linéaires, l'estimation de la densité par moindres carrés sur des modèles affines et l'estimation de la densité par maximum de vraisemblance sur des ensembles convexes. Ceci nous permet d'étendre les résultats précédemment établis dans le cas de la régression à des modèles plus généraux et de valider l'heuristique de pente pour un risque non quadratique en considérant le cas de l'estimation par maximum de vraisemblance. Enfin, notre méthodologie de preuve fournit des pistes précises de recherche pour des situations non régulières, comme on en trouve en classification ou plus généralement en théorie de l'apprentissage statistique.

mots-clefs : sélection de modèles – heuristique de pente – excès de risque – bornes inférieures – processus empirique – inégalité de concentration

Directeur :  Pr. Philippe Berthet

Rapporteurs : Pr. Vladimir Koltchinskii
                                  Pr. Pascal Massart

Jury de soutenance : M. Philippe Berthet ; University Toulouse III (Advisor)
                                         M. Lucien Birgé ; University Paris VI (President)
                                         M. Olivier Catoni ; CNRS and ENS (Examiner)
                                         M. Bernard Delyon ; University Rennes 1 (Examiner)
                                         M. Pascal Massart ; University Paris-Sud XI (Reviewer)
                                         M. Jian-Feng Yao ; University Rennes 1 (Examiner)

J'ai soutenu ma thèse à Rennes, le 22 octobre 2010.


Title

"Regular Contrast Estimation and the slope heurisitics"
 
Abstract

This thesis is devoted to the theoritical analysis of a method of calibration of penalties for model selection procedures. This method is based on a heuristics, called the "slope heuristics", which stipulate the existence of a minimal penalty such that the optimal solution of the penalisation problem is twice this penalty. In practice, one estimate the optimal penalty by the previous estimation of the minimal one, characterized by a complete changing in the behavior of the model selection procedure occuring around the minimal level of penalty.
    The theoritical understanding of the slope phenomenon is based on a sharp control with exact constant of the deviations of the excess risk and the empirical excess risk of the considered estimators, respectively measuring their performance in prediction and their empirical performance. This suggests a strong specification of the structure of the tackled problem.
    We validate the slope heuristics in a general framework based on a new notion in M-estimation, that we call "regular contrast", and we develop an original methodology of proof, allowing the simultaneous treatment of the problems of upper and lower bounds for the excess risk. We thus recover most of the known results concerning the slope phenomenon. Indeed, we give tree examples of regular contrast estimation, namely least-squares regression on linear models, least-squares density estimation on affine models and maximum likelihood density estimation on convex sets. This permits us to extend the previously known results in the regression setting to more general linear models and to validate the slope heuristics for a non-quadratic risk considering the maximum likelihood estimation of density. Finally, our methodology of proof provides with precise directions of research for non-regular situations, as one can find in classification and more generally in the statistical learning theory.

Keywords : model selection – slope heuristics – excess risk – lower bound – empirical process – concentration inequality.

Advisor :  Pr. Philippe Berthet

Ph.D. Reviewers : Pr. Vladimir Koltchinskii
                                  Pr. Pascal Massart

Ph.D. Defense Board of Examiners : M. Philippe Berthet ; University Toulouse III (Advisor)
                                                                      M. Lucien Birgé ; University Paris VI (President)
                                                                      M. Olivier Catoni ; CNRS and ENS (Examiner)
                                                                      M. Bernard Delyon ; University Rennes 1 (Examiner)
                                                                      M. Pascal Massart ; University Paris-Sud XI (Reviewer)
                                                                      M. Jian-Feng Yao ; University Rennes 1 (Examiner)

I defended my Ph.D. at Rennes, October 22th, 2010.


Ċ
adrien saumard,
Mar 2, 2011, 6:12 AM
Comments