Séance du 16 janvier 2017

14.00 Charlotte DION (Université Paris 1, SAMM)

Titre : Estimation non-paramétrique sous contrainte.

Résumé : Nous présentons une méthode d’estimation non-paramétrique d’une fonction s reliée à une variable aléatoire X positive, sous une contrainte du type : s(0) = c. La stratégie s’appuie sur une modification d’un estimateur par projection disponible de s. En effet nous proposons une extension des résultats de risque quadratique intégré pour le nouvel estimateur. De plus si une procédure adaptative existe pour l’estimateur sans contrainte, c’est à dire un choix d’estimateur réalisant automatiquement le compromis biais-variance, alors nous expliquons comment intégrer l’information s(0) = c et obtenir de nouveau une inégalité de type oracle pour notre estimateur final. Pour illustrer notre propos nous détaillons le cas de l’estimation de la densité et de la fonction de survie lorsque l’on dispose d’observations indépendantes directes de la variable X, ou bien bruitées par un bruit multiplicatif. Travail joint avec Fabienne Comte (MAP5 Université Paris Descartes).

15.00 Sylvie HUET (INRA, MaIAGE)

Titre : Estimation d'un métamodèle et des indices de sensibilité d'un modèle complexe dans le cadre de la régression gaussienne.

Résumé : La modélisation en biologie repose sur des modèles complexes, au sens où ils présentent des composantes fortement non linéaires ou font intervenir un grand nombre de variables d'état et de paramètres au travers d'interactions d'ordre élevé. Il est souvent nécessaire de les simplifier soit pour en comprendre le fonctionnement, soit pour optimiser les calculs numériques. La construction d'un modèle simplifié, ou métamodèle, d'un modèle complexe à l'aide d'une décomposition de type ANOVA obtenue par projection sur des espaces de Hilbert auto-reproduidant a été proposée récemment. Le métamodèle doit approcher au mieux le modèle initial tout en restant parcimonieux, et en possédant de bonnes qualités prédictives pour relier les variables de sortie aux variables d'entrée. En utilisant les outils de l'estimation fonctionnelle sparse par minimisation de critrères convexes, les propriétés prédictives des métamodèles ainsi construits peuvent être établies. Par ailleurs grâce à la décomposition de type ANOVA, et à la sélection des termes intervenant dans cette décomposition par les méthodes de régularisation de type lasso, les indices de sensibilité du métamodèle approchent les indices de sensibilité du modèle complexe initial. Ce travail a fait l'objet d'une collaboration avec M.L. Taupin (Université d'Evry, Val f'Essonne).

16.00 Svetlana GRIBKOVA (UMPC, LPMA)

Titre : ZINB, une nouvelle méthode de réduction de dimension pour les données d’expression génétique à l’échelle de la cellule unique.

Résumé : Le séquençage d’ARN à l’échelle de la cellule unique est une technique récente et révolutionnaire qui permet de quantifier les expressions de gènes dans des cellules individuelles. Elle offre ainsi une opportunité inédite d’étudier la variabilité de l’expression génétique au sein d’une population de cellules d’un même tissu. Ce nouveau type de séquençage permet de s’intéresser à plusieurs questions importantes, en particulier l’étude de la structure de l’hétérogénéité cellulaire et son évolution lors de processus biologiques tels que le développement ou la transformation maligne des tissus. Par exemple, en cancérologie les chercheurs s’intéressent à l’hétérogénéité de cellules provenant d’une même tumeur et à l’existence de sous-populations (clones) au sein de ces cellules. Les données peuvent porter sur des milliers de cellules, chacune étant caractérisée par l’expression de dizaines de milliers de ses gènes. La visualisation et l’étude de la structure de ces données nécessite impérativement la réduction de la dimension. Les données issues de séquençage `a l’échelle de la cellule unique ont une structure spécifique de comptages à inflation de zéro. Ce sont les matrices de données discrètes en grande dimension pouvant contenir jusqu’à 50% de valeurs nulles. Dans ces conditions, les méthodes de réduction de dimension classiques telles

que l’ACP (dont les propriétés théoriques sont surtout étudiées sous l’hypothèse de normalité de données) s’avèrent inefficaces. Dans cette exposé, je proposerai une nouvelle méthode de réduction de dimension basée sur la modélisation de données par une loi discrète (loi binomiale négative à inflation de zéro). L’idée de la méthode consistera à chercher les “composantes principales” via la maximisation de vraisemblance adaptée à la structure des données. Après la présentation

de l’algorithme, je montrerai ses applications sur des données réelles et simulées.