Séance du 12 avril 2010

Lundi 12 avril 2010

Organisateurs: Ghislaine Gayraud et Karine Tribouley

14h00 Mathilde Mougeot (Université Paris Diderot)

Algorithme LOL pour la regression lineaire en ultra grande dimension.

Résumé: Nous présentons une méthode appelée LOL permettant de résoudre des problèmes de régression dans le cadre de la grande dimension. Cette méthode est basée sur un double seuillage. Un premier seuillage sélectionne des variables candidates à la régression, "les leaders", et un second seuillage sélectionne les coefficients des variables à retenir après régression sur les leaders. Nous aborderons les performances de cette méthode LOL d'un point de vue théorique et pratique.

15h00 Cécile Durot (Université Paris Sud)

Un test multiple de monotonie fondé sur les majorants concaves

en collaboration avec Nathalie Akakpo et Fadoua Balabdaoui

Résumé: Dans le modèle de bruit blanc de niveau de bruit $1/sqrt{n}$, on veut tester l'hypothèse nulle que la fonction signal $f$ est décroissante sur [0,1], sans hypothèse a priori sur $f$. Pour cela, on considère une collection d'intervalles et pour chaque intervalle $I$ de la collection, on teste l'hypothèse que $f$ est décroissante sur $I$ : on rejette cette hypothèse si l'estimateur de la primitive de $f$ est trop éloigné de son majorant concave sur $I$, le test étant calibré sur l"hypoth\`ese la moins favorable que $f$ est nulle sur $I$. On rejette alors l'hypothèse de monotonie s'il existe un intervalle au sein de la collection sur lequel on rejette cette hypothèse. Nous calculons la vitesse de séparation du test multiple dans le cas d'un signal Hölderien.

16h00 Stéphan Clémençon (Télécom Paristech)

Ranking Forests

Abstract: It is the goal of this talk to examine how the aggregation and feature randomization principles underlying the algorithm RANDOM FOREST, originally proposed in the classification/regression setup, can be adapted to bipartite ranking, in order to increase the performance of scoring rules produced by the TREERANK algorithm, a recently developed tree induction method, specifically tailored for this global learning problem. Since TREERANK may be viewed as a recursive implementation of a cost-sensitive version of the popular classification algorithm CART, with a cost locally depending on the data lying within the node to split, various strategies can be considered for "randomizing" the features involved in the tree growing stage. In parallel, several ways of combining/averaging ranking trees may be used, including techniques inspired from rank aggregation methods recently popularized in Web applications. Ranking procedures based on such approaches are called RANKING FORESTS. Beyond preliminary theoretical background, results of experiments based on simulated data are provided in order to give evidence of their statistical performance.