Séance du 7 février 2022

Séance organisée par Estelle Kuhn et Marie-Luce Taupin.

Lieu : IHP, amphi Darboux


14.00 : Andrea Rau (INRAE, GABI)

Titre : A randomized pairwise likelihood method for complex statistical inferences

Résumé : Pairwise likelihood methods are commonly used for inference in parametric statistical models in cases where the full likelihood is too complex to be used, such as multivariate count data. Although pairwise likelihood methods represent a useful solution to perform inference for intractable likelihoods, several computational challenges remain, particularly in higher dimensions. To alleviate these issues, we consider a randomized pairwise likelihood approach, where only summands randomly sampled across observations and pairs are used for the estimation. In addition to the usual tradeoff between statistical and computational efficiency, we show that, under a condition on the sampling parameter, this two-way random sampling mechanism allows for the construction of less computationally expensive confidence intervals. The proposed approach, which is implemented in the rpl R package, is illustrated in tandem with copula-based models for multivariate count data in simulations and on a set of transcriptomic data.

Joint work with Gildas Mazo and Dimitris Karlis


15.00 : Geneviève Robin (CNRS, Université d’Evry Val d‘Essonne, LAMME)

Titre : Federated Expectation-Maximization with heterogeneity mitigation and variance reduction

Résumé : The Expectation Maximization (EM) algorithm is the default algorithm for inference in latent variable models. As in any other field of machine learning, applications of latent variable models to very large datasets make the use of advanced parallel and distributed architecture mandatory. This paper introduces FedEM, which is the first extension of the EM algorithm to the federated learning context. FedEM is a new communication efficient method, which handles partial participation of local devices, and is robust to heterogeneous distribution of the datasets. To alleviate the communication bottleneck, FedEM compresses appropriately defined complete data sufficient statistics. We also develop and analyze an extension of FedEM to further incorporate a variance reduction scheme. In all cases, we derive finite-time complexity bounds for smooth non-convex problems. Numerical results are presented to support our theoretical findings, as well as an application to federated missing values imputation for biodiversity monitoring.


16.00 : Vincent Rivoirard (Université Paris Dauphine, CEREMADE)

Titre : Estimation de densité multivariée par l’approche Penalized Comparison to Overfitting

Résumé : Bien que l'utilisation des estimateurs à noyau soit très répandue, la sélection du paramètre de lissage (la fenêtre) demeure un défi pour combiner à la fois efficacité algorithmique et pertinence statistique. En particulier, les performances théoriques et numériques de ces estimateurs dépendent fortement de la calibration des hyperparamètres, autrement dit des constantes qui interviennent dans la fenêtre. Dans le cadre de l’estimation de densité multivariée, l'objectif de cet exposé est de présenter (pour l’essentiel au tableau) l'approche PCO (Penalized Comparison to Overfitting) de sélection automatique de fenêtre. Nous obtenons une stratégie de sélection entièrement basée sur les données qui rend la méthode complètement calibrée (tuning-free). Nous montrons l'optimalité de PCO du point de vue théorique et nous la comparons numériquement aux méthodes les plus classiques.

Travail réalisé en collaboration avec Claire Lacour, Pascal Massart et Suzanne Varet.