Lieu : IHP, amphi Yvonne Choquet-Bruhat (second étage du bâtiment Perrin)
14.00 : Luca Ganassali (LMO - Université Paris Saclay)
Titre : The Procrustes-Wasserstein problem: Aligning embeddings and geometric random graphs
Résumé : The Procrustes-Wasserstein problem consists in matching two high-dimensional point clouds in an unsupervised setting, where we have two datasets X,Y in R^d that are noisy versions of each other, up to an orthogonal transformation and a relabeling of the data points. This question is closely related to that of aligning geometric graphs. I will motivate and introduce this problem formally, focusing on the euclidean transport cost between the point clouds as a measure of performance for the alignment. We will talk about the dichotomy between the high (d ≫ log n) and low (d ≪ log n) dimensional regimes, and give first informational results and proof ideas for this problem. We will then introduce the Ping-Pong algorithm for our task, alternatively estimating the orthogonal transformation and the relabeling, initialized via a Franke-Wolfe convex relaxation.
This talk is based on joint work with Mathieu Even, Jakob Maier and Laurent Massoulié.
15.00 : Etienne Lasalle (LS2N - Université de Nantes)
Titre : Compressive Recovery of Sparse Precision Matrices
Résumé : We consider the problem of learning a graph modeling the statistical relations of the d variables of a dataset with n samples. Standard approaches amount to searching for a precision matrix representative of a Gaussian graphical model that adequately explains the data. However, most maximum likelihood-based estimators usually require storing the d^2 values of the empirical covariance matrix, which can become prohibitive in a high-dimensional setting. In this talk, we adopt a “compressive” viewpoint and aim to estimate a sparse precision matrix from a sketch of the data, i.e., a low-dimensional vector of size m≪d^2 carefully designed from the data using nonlinear random features (e.g., rank-one projections). Under certain spectral assumptions, we show that it is possible to recover the precision matrix from a sketch of size m=Ω((d+2k)log(d)), where k is the maximal number of edges of the underlying graph. These information-theoretic guarantees are inspired by the compressed sensing theory. We investigate the possibility of achieving practical recovery with an iterative algorithm based on the graphical lasso, viewed as a specific denoiser. We compare our approach and the graphical lasso on synthetic datasets, demonstrating its favorable performance even when the dataset is compressed.
Joint work with : Titouan Vayer, Rémi Gribonval and Paulo Gonçalves.
16.00 : Aurélie Fischer (LPSM - Université Paris Cité)
Titre : Apprentissage statistique en sciences du climat : exemple des ondes internes de gravité.
Résumé : Dans cet exposé, nous considérerons l'application de méthodes d'apprentissage statistique en sciences du climat : l'objectif est d'améliorer la connaissance et la description de processus physiques de petite échelle. Pour tenir compte des effets de ces processus de petite échelle, qui ne sont pas explicitement décrits dans les modèles de climat, il peut être utile d'intégrer, grâce à l'apprentissage statistique, les informations précises qui peuvent être fournies par des observations de ces processus. Les processus de petite échelle auxquels nous nous intéresserons sont les ondes internes de gravité, ondes dues au phénomène de gravité et à un contraste de densité sur la verticale. Les ondes de gravité jouent en effet un rôle crucial dans la circulation atmosphérique au-dessus de 15-20 km.
Les observations dont nous disposons sont des mesures par ballons superpressurisés stratosphériques, obtenues dans le cadre de la campagne Stratéole 2, projet franco-américain du Centre national d'études spatiales. Le comportement quasi-Lagrangien des ballons permet d'accéder à des estimations précises de flux de quantité de mouvement associés aux ondes de gravité dans la basse stratosphère. Les variables explicatives décrivant l'écoulement à grande échelle sont quant à elles fournies par les données de réanalyse ERA5 provenant du Centre Européen pour les Prévisions Météorologiques à Moyen Terme.