Séance du 6 février 2012

Lundi 6 février 2012

Organisateurs: Gersende Fort et Judith Rousseau

14h00 Aurélien Garivier (LTCI, CNRS et Telecom ParisTech)

Apprentissage par renforcement et déviations auto-normalisées

Résumé : L'apprentissage par renforcement se distingue des autres théories d'apprentissage statistique en qu'il place en son coeur la dimension temporelle, mais aussi interactive, du phénomène d'apprentissage. Les modèles les plus simples qui s'y rattachent sont communément appelés "problèmes de bandits" : un agent, faisant face à une collection d'options plus ou moins avantageuses, doit à chaque instant choisir l'une d'elle et reçoit une récompense en conséquence, avec pour objectif de maximiser la somme des récompenses reçues. Ce modèle couvre une grande situation de motivations pratiques, des essais cliniques au routage de paquets sur internet. Parmi les stratégies proposées en apprentissage par renforcement, on distingue les algorithmes optimistes : ils agissent à chaque instant comme s'ils se trouvaient dans l'environnement le plus favorable pour eux parmi tous ceux qui rendent les observations passées suffisamment vraisemblables. Nous verrons comme le paradigme optimiste peut être mis en oeuvre efficacement et simplement ici, et comment l'algorithme KL-UCB, en introduisant une notion de divergence sur l'espace des récompenses adaptée au problème, conduit à des résultats significativement meilleurs que ses concurrents. Pour obtenir ces résultats, on est amené à étudier les déviations auto-normalisées de certaines martingales : nous verrons quelles nouvelles bornes nous avons développées, et nous les comparerons aux bornes existantes. Nous aborderons également quelques extensions du modèle, en particulier à l'exploration optimale avec experts probabilistes (un problème motivé par des considérations d'analyse de sécurité dans les réseaux électriques) et à l'optimisation de fonctions bruitées (motivée par une étude sur l'exposition aux ondes électro-magnétiques).

15h00 Fadoua BALABDAOUI (CEREMADE, Univ. Dauphine)

The distribution of the maximal difference between a Brownian bridge and its concave majorant.

Résumé: We provide a representation of the maximal difference between a standard Brownian bridge and its concave majorant on the unit interval, from which we deduce expressions for the distribution and density functions and moments of this difference. This maximal difference has an application in nonparametric statistics, where it arises in testing monotonicity of a density or regression curve.

16h00 Elisabeth Gassiat (Univ. Paris Sud)

Estimation bayésienne de HMMs: comportement asymptotique des lois a posteriori.

(Travail joint avec J. Rousseau)

Résumé : Nous considérons l'estimation bayésienne du paramètre de la loi d'un processus de Markov caché paramétré. Nous obtenons un résultat de vitesse asymptotique sur les distances en variations des marginales finales dimensionnelles. Nous montrons que ce résultat s'applique aux chaines à espace d'états fini. Ceci permet de donner des conditions sur la loi a priori qui conduisent à une estimation consistante de l'ordre, puis des paramètres de la chaine cachée.