Séance du 25 novembre 2019

Séance organisée par Liliane Bel et Vincent Rivoirard

Lieu : IHP, amphi Hermite

14.00 : Anna Bonnet (Sorbonne Université)

Titre : Etude de co-localisation en génomique avec des processus de Hawkes

Résumé : Les protocoles de séquençage ChIP-Seq, très utilisés en génomique, permettent de localiser des interactions entre ADN et protéines à l'échelle du génome. Nous cherchons à déterminer les informations biologiques pertinentes parmi ces données spatiales, en étudiant notamment la co-localisation de plusieurs processus le long du génome. Une des particularités de ces données est qu'elles sont bruitées à cause des incertitudes dans les méthodes de détection. Nous proposons d'utiliser un modèle de processus ponctuel multivarié, le modèle de Hawkes, et nous proposons une extension des méthodes d'estimation non paramétrique de Reynaud-Bouret et al (2014) dans le cas d'un modèle ponctuel avec un bruit uniforme. Nous appliquons cette méthode à plusieurs jeux de données issus de la génomique et nous mettons en évidence la nécessité d'utiliser une méthode d'analyse multivariée ainsi que l'intérêt de prendre en compte l'incertitude sur la position des données.

15.00 : Céline Lévy-Leduc (Agro-ParisTech)

Titre : Méthodes de statistique en grande dimension pour l'analyse de données de biologie moléculaire

Résumé : Dans cet exposé, je présenterai plusieurs méthodes statistiques afin d'analyser différents types de données de biologie moléculaire. Je présenterai les propriétés théoriques et numériques de ces méthodes ainsi que les résultats qu'elles permettent d'obtenir lorsqu'elles sont appliquées à des données biologiques.

16.00 : Gilles Blanchard (Université Paris Sud)

Titre : Sketched learning using random moments

Résumé : We introduce and analyze a general framework for resource-efficient large-scale statistical learning by data sketching: a training data collection is compressed in one pass into a low-dimensional sketch (a vector of random empirical generalized moments) that should capture the information relevant to the considered estimation task. The estimation target is the minimizer of the population risk for a given loss function. An approximate minimizer of the empirical risk is computed from the sketch information only using a constrained moment matching principle. Sufficient sketch sizes to control the statistical error of this procedure are investigated. This principle is applied to different setups: PCA, clustering, and Gaussian mixture Modeling.

(Joint work with R. Gribonval, N. Keriven and Y. Traonmilin.)