Séance du 2 mai 2011

Lundi 2 mai 2011

Organisateurs: Cécile Durot et Estelle Kuhn

14h00: Jean-Michel Poggi (Lab. Maths Orsay et Univ. Paris Descartes)

Fonctions d'influence pour CART

Résumé: This talk deals with measuring the influence of observations on the results obtained with CART classification trees. To define theinfluence of individuals on the analysis, we use influence functions to propose some general criterion to measure the sensitivity of the CART analysis and its robustness. The proposals, based on jakknife trees, are organized around two lines: influence on predictions and influence on partitions. In addition, the analysis is extended to the pruned sequences of CART trees to produce a CART specific notion of influence.

A numerical example, the well known spam dataset, is presented to illustrate the notions developed throughout the talk. A real dataset relating the administrative classification of cities surrounding Paris, to the characteristics of their tax revenues distribution, is finally analyzed using the new influence-based tools.

En savoir plus: A. Bar Hen, S. Gey, J.-M. Poggi (2010), Influence functions for CART, hal.archives-ouvertes.fr/docs/00/56/20/39/PDF/cart.influence.pdf

15h00: Fabienne Comte (Laboratoire MAP5, Université Paris Descartes)

Estimation de densité pour des variables positives.

En collaboration avec Valentine Genon-Catalot.

Résumé: Nous proposons dans ce travail un nouveau type d'estimateurs adaptés au traitement de variables positives (survie, fiabilité). Ces estimateurs sont construits en utilisant de façon non standard des noyaux définis comme les lois des moyennes empiriques de m variables aléatoires positives. La quantité m joue un rôle de type largeur de fenêtre. Nous présentons, motivons et décrivons nos estimateurs d'un nouveau type, nous en étudions le risque ponctuel et global et nous proposons, dans chacune des deux optiques, un estimateur adaptatif basé sur une sélection de fenêtre automatique. Ces estimateurs sont comparés, dans le cas ponctuel, via dessimulations, à des estimateurs de type Goldenschluger and Lepski (2011).

16h00: Francois Rodolphe (INRA, unité MIG)

Prédiction de structure des protéines par threading : significativité du score, fondée sur la théorie des valeurs extrêmes.

En collaboration avec Afshin Fayyaz Movaghar, Guillaume Launay, Sophie Schbath, Jean-François Gibrat.

Le séquençage de l’ADN, devenu très banal, produit une foule de séquences de protéines dont on veut connaître la structure tri-dimensionnelle. Parmi les méthodes de prédiction de structure in silico, le threading consiste à forcer le repliement de la séquence requête sur chacune des structures connues et à calculer un score qui indique l’adéquation de la structure à cette séquence. Il y a de très nombreux repliements possibles d’une séquence sur une même structure et on s’intéresse à celui de score maximal. La prédiction repose sur ce score maximal qui, s’il est assez élevé, indique une bonne concordance entre cette structure déjà connue et celle de la requête. En revanche, s’il n’y a pas de lien entre la requête et cette structure, le score maximal obtenu est le maximum d’un grand ensemble de scores qu’on assimilera à ceux obtenus avec une séquence aléatoire. Le problème est compliqué par la dépendance très complexe entre les scores obtenus avec une même séquence et une même structure. Néanmoins, la simulation de séquences aléatoires et le calcul des scores maximaux est facile. On dispose ainsi d’échantillons de scores maximaux, ce qui permet d’estimer leur distribution. On obtient d’excellents ajustements avec une loi de Weibull. Une particularité du problème permet de construire un processus stationnaire et mélangeant grâce auquel on obtient un résultat pratique intéressant pour des requêtes longues. Le fait que la loi de valeur extrême ajustée soit toujours une loi de Weibull est une conséquence de la structure du graphe qui décrit la structure de la protéine. On présentera quelques résultats intéressants obtenus avec de vraies séquences de protéines de structures connues.