Séance du 10 janvier 2011

Lundi 10 janvier 2011

Organisateurs: Arnaud Gloter et Marc Hoffmann

14h00: Stephane Gaiffas (Université Paris 6)

Prédiction de matrices en grande dimension

Résumé : Nous parlerons de quelques résultats théoriques concernant la prédiction d'une matrice en grande dimension, le problème de complétion de matrice étant un exemple qui nous intéressera en particulier. Les méthodes étudiées reposent sur le principe de relaxation convexe du rang (norme nucléaire), mais nous étudierons aussi des procédures utilisant un mélange avec d'autres normes matricielles. Pour expliquer facilement un algorithme de complétion de matrice, nous introduirons le cadre des opérateurs proximaux. Nous donnerons quelques résultats numériques, et présenterons une nouvelle procédure, basée sur une repondération de la norme nucléaire, qui améliore sensiblement la pénalisation basée sur la norme nucléaire simple.

15h00 Pierre Vandekerkhove (Université Paris-Est)

Estimation d'un modèle de régression semi-paramétrique contaminé.

Résumé : Nous considérons dans cet article un modèle de régression contaminé dans lequel la loi de la composante contaminante est entièrement connue alors que les paramètres du modèle de régression, la loi du bruit, la probabilité de contamination ainsi que la loi du régresseur sont inconnus. Notre modèle est dit semi-paramétrique au sens où la densité de probabilité du bruit impliqué dans le modèle de régression n'est pas supposée appartenir à une famille paramétrique. Lorsque les densités du bruit et du phénomène contaminant sont supposées symétriques autour de zéro, nous proposons un estimateur consistant des divers paramètres du modèle (euclidiens et fonctionnels). Nous montrons en particulier, sous des hypothèses faibles toutes satisfaites lorsque le modèle sous-jacent est gaussien, que la partie euclidienne du modèle peut être estimée ps à la vitesse o(n^{-1/4+alpha}), alpha>0. Comme dans Bordes et Vandekerkhove (2010) , si un TCL fonctionnel peut être obtenu pour nos paramètre (ce qui semble raisonnable), le résultat que nous venons d'énoncer en sera un des arguments clé. Nous étudierons enfin les performances numériques de notre estimateur sur divers exemples test. Nous pourrons à cette occasion observer l'existence d'artefacts d'estimation préalablement mis en évidence sur le plan théorique.

16h00 Pierre Alquier (Université Paris 7 et CREST)

Modèle de Single-Index Sparse

en collaboration avec Gérard Biau, Paris 6/ENS.

Résumé : Les modèles dits à "Single-Index" sont très utilisés dans un certain nombre d'applications. L'idée est d'estimer la fonction de régression f(X)=E(Y|X) où X est dans un espace de grande dimension (p) par une fonction de la forme g(<T,X>): ainsi, l'estimation de f est ramenée à l'estimation non paramétrique d'une fonction d'une seule variable réelle, g, et d'un paramètre, T. Malheureusement, malgré sa simplicité, ce modèle pose des difficultés sérieuses lorsque p est grand: difficultés computationnelles, et difficulté d'estimation du paramètre T. Pour éviter ce problème, nous proposons ici de supposer que le paramètre T est sparse. En utilisant l'approche PAC-Bayésienne, on propose un estimateur de (g,T) satisfaisant une inégalité oracle précise. Nous montrons également qu'il est possible d'implémenter l'estimateur proposé en utilisant l'algorithme de Hastings-Metropolis, et illustrons sur des simulations et des données réelles l'amélioration par rapport à d'autres méthodes d'estimation.