Séance du 12 avril 2021

Séance organisée par Cécile Durot et Etienne Roquain.

Séance diffusée via Zoom (lien ici).

14h00 - 15h15 : Yannick Baraud (Université du Luxembourg)

Titre : Comment construire un estimateur robuste pour une perte donnée ?

Résumé : Étant donné un n-échantillon de loi inconnue, un modèle de probabilités (ne contenant pas nécessairement la loi en question) et une fonction de perte, nous décrirons une méthode générique permettant de construire un estimateur de cette loi à valeurs dans le modèle et dont le risque, pour la perte considérée, est borné par la somme de deux termes. Le premier est un terme de complexité du modèle correspondant au risque que l’on obtiendrait si la loi appartenait réellement à celui-ci, le second un terme d’approximation de la vraie loi par le modèle, ce qui confère à l’estimateur une certaine propriété de robustesse lorsque l’écart de la loi au modèle, mesuré selon la perte utilisée, reste modéré. Notre approche permet de considérer des pertes classiques telles que la variation totale, les distances de Hellinger et de Wasserstein-1, la divergence de Kullback-Leibler, les pertes L_p et, plus généralement, toutes les pertes définies par des formules variationnelles convenables.

15h15 -16h30 : Guillaume Maillard (Université du Luxembourg)

Titre : First order asymptotics of (aggregated) hold-out in least-squares density estimation

Résumé : The hold-out, or simple validation, relies on the arbitrary choice of a validation subsample, which leads to a high variance in estimator selection. Cross-validation averages the hold-out criterion over several « folds » in order to achieve a more stable choice of estimator. However, in many cases, such as k-NN, Fourier series or histograms, convex combinations are known to improve over a single estimator. This suggests aggregated hold-out as an alternative to cross-validation, which may be superior if the gains of aggregation outweigh the model selection error. However, comparing the two is a difficult task in general. The classical analysis of model selection methods, based on oracle inequalities, is not suited to fine comparisons between different methods. Instead, we establish the first-order asymptotics of the hold-out and its aggregated version in least-squares density estimation with cosine series estimators. This analysis proves that aggregated hold-out can outperform the model selection oracle by up to a constant factor, if its parameters are well chosen.