Séance du 2 avril 2012

Lundi 2 avril 2012

Organisateurs: Mathilde Mougeot et Erwan Le Pennec

14h00 Céline Lévy-Leduc (LTCI/Télécom ParisTech)

Méthodes robustes pour l'analyse des séries temporelles et applications

Résumé: Dans la première partie de l'exposé, je présenterai des méthodes non-paramétriques de détection et d'estimation de ruptures

dans des séries temporelles multivariées et j'en donnerai une application à la détection d'anomalies dans le trafic internet.

Dans la seconde partie de l'exposé, je présenterai une méthode d'estimation robuste de la fonction d'auto-covariance de processus

gaussiens en courte et en longue-mémoire et j'en donnerai une application à des données hydrologiques.

15h00 Etienne Roquain (Université Paris 6)

Test multiple sous dépendance: comportement du taux de faux positifs en grande dimension

Travail en cours avec S. Delattre

Résumé : Dans de nombreux cas pratiques, un enjeu majeur est d'identifier les coordonnées non nulles de la moyenne d'un vecteur gaussien

multivarié de grande dimension. Une approche de type "test" conduit naturellement à effectuer un grand nombre de tests, pour toutes les coordonnées

simultanément. Une correction est alors requise pour limiter la quantité globale de faux positifs. A cet effet, une procédure très souvent utilisée en

pratique est celle dite de Benjamini-Hochberg (BH), dont le bon comportement est établi lorsque les tests effectués sont indépendants.

Notre travail consiste à évaluer la façon dont la procédure BH se dégrade, en terme de taux de faux positifs, pour des dépendances

"raisonnablement faibles" et lorsque la dimension tend vers l'infini. Nous montrerons que cette dégradation peut être exprimée simplement en fonction

de la moyenne des coefficients de la matrice de corrélation.

16h00 Marie-Laure Martin-Magniette (AgroParisTech, INRA-UEVE ERL CNRS)

Classification de données de séquençage à haut-débit avec des modèles de mélange

(travail joint avec G. Celeux, C. Maugis-Rabusseau, P. Papastamoulis et A. Rau)

Résumé : Les technologies à haut-débit progressent de manière importante et le séquençage haut-débit va devenir un outil incontournable pour explorer l'activité d'un génome. Dans ces travaux, nous nous sommes intéressés (i) à l'analyse de co-expression qui consiste à trouver des groupes de gènes qui ont des profils d'expression similaires (ii) à identifier des groupes de gènes ayant des profils similaires par rapport à un ensemble de conditions références. Lors de cet exposé, après une introduction sur l'intérêt biologique de l'analyse de la co-expression et la spécificité des données, je présenterai pour chaque question une modélisation fondée sur un modèle de mélanges puis présenterai l'intérêt de ces modèles à partir de l'analyse de jeux de données réelles.