Séance du 11 mars 2024

Séance organisée par Estelle Kuhn et Marie-Luce Taupin

Lieu : IHP,  amphi Hermite 


14.00 : Angelina Roche (Université Paris Dauphine, Ceremade) 

Titre :  Is it possible to achieve minimax rate in the functional linear model under sparsity constraint? 

Résumé : In recent decades, significant research effort has focused on regression models involving functional data, i.e.  data that can be modelled as samples of random functions. The functional linear model which assumes a linear dependence between a functional covariate X and a quantity of interest Y, has been extensively studied. It is now well understood, and the theoretical results can be extended directly to covariates lying in a general Hilbert space. In the case where this Hilbert space is naturally written as a product space, the question of sparsity arises, either to obtain a more interpretable model (see James, Müller, and Wang, 2009 for the ideas behind the FLiRTI method for Functional Linear Regression That is Interpretable) or to reduce the complexity of the estimation problem in the case of multivariate functional data. The aim of this talk is to study the convergence rates of the LASSO estimator and to present some tracks for obtaining minimax rates of convergence in this infinite-dimensional context.  


15.00 : Christine Kéribin (Université Paris Saclay, LMO) 

Titre : Le coclustering par modélisation probabiliste : défis de l’estimation et apport à l’étude des données en grande dimension

Résumé : Le coclustering par modélisation probabiliste, qui peut être vu comme une extension du clustering par modèle de mélange, permet une réduction à la fois du nombre de lignes (individus) et de colonnes (variables) d'un ensemble de données de façon très parcimonieuse tout en préservant l'interprétabilité des données réduites. De plus, il bénéficie de la riche théorie statistique des modèles probabilistes tant pour l’estimation que pour la sélection du modèle. C’est un domaine actif dans lequel de nombreux travaux récents ont produit de nouvelles avancées, d’un point vue théorique comme méthodologique et appliqué. Après une discussion sur ces avancées, je développerai deux messages principaux, étayés par du matériel de recherche spécifique : (1) le co-clustering nécessite des recherches plus approfondies pour résoudre certains problèmes d'estimation bien identifiés, et (2) le co-clustering est une approche très prometteuse pour le clustering dans le cadre de la (très) grande dimension, qui correspond à la tendance mondiale des données modernes.  Travail en collaboration avec Christophe Biernacki et Julien Jacques (J Classif 40, 332–381 (2023))


16.00 : Arnaud Gloter (Université Evry Val d’Essonne, LAMME) 

Titre : Vitesses d’estimation minimax pour données multivariées sous contrainte de confidentialité composante par composante 

Résumé : Considérons (X_i) un n-échantillon de loi d'une variable d-dimensionnelle X. Le problème de l'estimation de la loi de X sous contrainte de confidentialité a été par exemple étudié récemment dans Duchi et al. (JASA 2018) ou Wasserman & Zhou (JASA 2010).  Dans ce cadre, le statisticien n'a pas accès aux données brutes X_i mais à des données publiques construites à partir des données brutes et satisfaisant à la contrainte de alpha - Local Differential Privacy. Le paramètre alpha calibre le niveau de confidentialité au travers de la difficulté à retrouver la valeur brute depuis la connaissance des données publiques.  Dans cet exposé, nous considérons la situation où pour chaque individu, les composantes du vecteur de données brutes sont rendues publiques indépendamment, sans utiliser la connaissance des d-1 autres composantes. Le niveau de confidentialité peut aussi être différent pour chaque composante. En pratique, une telle situation peut arriver si les d composantes des données brutes ont été collectées par des organismes différents. Dans ce cadre, nous établissons les vitesses minimax pour l'estimation ponctuelle de la loi jointe de X ainsi que pour l'estimation de la covariance du vecteur.  En particulier, nous évaluons la perte d'information par rapport à la situation où il est possible de construire la donnée publique depuis la connaissance de toutes les composantes du vecteur X_i comme dans Duchi et al.  Travail en collaboration avec Chiara Amorino (Université du Luxembourg)