Le séminaire de l'équipe a lieu le Jeudi Matin à 10h sur le site bellifontain de Mines Paris.
____________________
TBD
____________________
Pour accéder aux slides et enregistrements vidéo des sessions passées, veuillez cliquer sur le lien suivant:
____________________
Methods for making inference on parameters in statistical models are often based on the likelihood function. However, for many models, the likelihood function is unavailable or computationally intractable. In this talk, I discuss the use of neural networks to facilitate fast likelihood-free inference. These methods are "amortised" in the sense that, once the neural network is trained with simulated data, inference from observed data is (typically) orders of magnitude faster than conventional approaches. I illustrate the methodology using spatial Gaussian and max-stable processes, and showcase an application to a data set of global sea-surface temperature. There, the parameters of a Gaussian process model are estimated in 2161 spatial regions, each containing thousands of irregularly-spaced data points, in just a few minutes with a single graphics processing unit.
Based on the following papers that are joint work with Andrew Zammit-Mangion, Raphael Huser, and Jordan Richards:
"Likelihood-free parameter estimation with neural Bayes estimators": https://www.tandfonline.com/doi/full/10.1080/00031305.2023.2249522
"Neural Bayes estimators for irregular spatial data using graph neural networks": https://arxiv.org/abs/2310.02600
"Neural methods for amortised inference": https://arxiv.org/abs/2404.12484
____________________
Uncertainty Quantification (UQ) of Streamflow forecasts provide valuable information for water management and decision-making. Existing Hydrological uncertainty quantification approaches rarely account for temporal coherence (correlation) of streamflow’s uncertainties and implicitly assume their statistical independence. But because flows are so much auto-correlated, it is also very likely that errors will follow a similar behaviour. Understanding this correlation is essential for developing robust and reliable probabilistic forecasts, across a multitude of lead times and aggregation periods.
To reconstruct temporal dependencies, we start with regular Gaussian Copulas: multivariate distributions with uniform univariate margins. Representing a joint distribution of streamflow across a forecast horizon as univariate margins (generated through existing univariate UQ methods) plus copulas allows the separation of the problems of estimating univariate distributions from the problems of estimating temporal dependence.
We then introduce a novel approach based on Vine Copulas, a flexible graphical model that extends regular copulas and allows for a richer temporal dependence modelling. We demonstrate the competitive performance and parsimonious nature of Vine Copulas on a large sample of French catchments and across a range of hydrological conditions.
_____________________
This study focuses on estimating a scalar field from noisy indirect observations. To obtain a full posterior distribution of the quantity of interest, a Bayesian framework coupled with a Markov chain Monte Carlo sampling is used. The field inference is expensive due to its infinite dimension and the computational cost of the forward model. We introduce a parametrization based on the Karhunen-Loève (KL) decomposition, which offers a finite representation. However, the KL decomposition relies on the hyperparameters of its autocovariance function, and selecting appropriate values a priori can be challenging due to the lack of prior knowledge.
Instead of selecting deterministic hyperparameter values, we suggest incorporating hyperparameter prior distributions to enable testing various field shapes during the sampling process. To achieve this, we introduce a novel approach that rephrases the posterior using a hierarchical Bayesian formulation to manage the KL hyperparameters. This hierarchical dependency is based on a change of measure of the decomposition coordinates, leading to a smooth exploration of the hyperparameter space.
Our sampling procedure is accelerated by means of surrogate models to replace the data computed from the forward model. In a seismic traveltime tomography case, we demonstrate that exploring the hyperparameter space improves the uncertainty estimation when compared to an approach with fixed hyperparameters.
_____________________
The Poisson log-normal model is a latent variable model that provides a generic framework for the analysis of multivariate count data. Inferring its parameters can be a daunting task since the conditional distribution of the latent variables given the observed ones is intractable. For this model, variational approaches are the golden standard solution as they prove to be computationally efficient but lack theoretical guarantees on the estimates. Sampling based solutions are quite the opposite. Starting from already available variational approximations, we define a first Monte Carlo EM algorithm to obtain maximum likelihood estimators. We then extend this algorithm to the case of a composite likelihood in order to be able to handle higher dimensional count data.
_____________________
Dans cette présentation, nous explorerons deux applications des méthodes à noyaux en modélisation probabiliste. Dans un premier temps, nous aborderons l'estimation de distributions de probabilité indexées dans l'espace. À cette fin, nous présenterons une classe de modèles appelée SLGP, qui repose sur l'utilisation de processus Gaussiens latents pour modéliser des distributions de probabilité spatialement indexées. Cette classe de modèles, utilisée dans un cadre Bayésien, permet d'inclure des observations indirectes et facilite la quantification des incertitudes associées aux prédictions. Nous démontrerons le potentiel de cette classe de modèles pour la résolution de problèmes inverses stochastiques en présentant le cadre SLGP-ABC et illustrerons notre approche sur un cas pratique issu de l'hydrogéologie : la localisation d'une source de contamination dans un contexte unidimensionnel.
Dans un second temps, nous présenterons les résultats préliminaires d'une étude en cours qui exploite les plongements dans les espaces de Hilbert à noyaux reproduisants pour la simulation géostatistique. Cette partie de la recherche vise à développer des modèles génératifs capables de reproduire des distributions spatiales complexes, offrant ainsi un nouvel outil puissant pour la modélisation de données environnementales et géologiques.
_____________________
Ill-posed linear inverse problems arise frequently in various applications, from computational photography to medical imaging. A recent line of research exploits Bayesian inference with informative priors to handle the ill-posedness of such problems. Amongst such priors, score-based generative models (SGM) have recently been successfully applied to several different inverse problems. In this talk, I'll present Score-based generative models and MCGDiff, an algorithm that exploit the particular structure of the prior defined by the SGM to define a sequence of intermediate linear inverse problems. As the noise level decreases, the posteriors of these inverse problems get closer to the target posterior of the original inverse problem. To sample from this sequence of posteriors, we propose the use of Sequential Monte Carlo (SMC) methods. I'll also show some subsequent applications we have done of MCGDiff in the cardiology domain, namely for anomaly detection.
References:
[1] Monte Carlo guided Denoising Diffusion models for Bayesian linear inverse problems.
G Cardoso, Y. Janati, S Le Corff, E Moulines - The Twelfth International Conference on Learning
[2] Bayesian ECG reconstruction using denoising diffusion generative models
GV Cardoso, L Bedin, J Duchateau, R Dubois, Eric Moulines - arXiv preprint arXiv:2401.05388, 2023
_____________________
Les études probabilistes du risque d'inondation sont indispensables pour évaluer les impacts potentiels sur les zones vulnérables notamment en présence d'installations industrielles et plus particulièrement celles nucléaires. Ces études sont complexes car elles nécessitent de nombreuses itérations avec des simulateurs hydrauliques coûteux en temps de calcul, tout en gérant des probabilités d'occurrence faibles. La communication des résultats probabilistes à un public non forcément spécialiste est également un défi. Ainsi, ces travaux proposent des méthodes de quantification visant à représenter les distributions de probabilités continues en jeu, dans le but de faciliter l'estimation du risque d'inondation et de ses causes.
Tout d'abord, une méthode de visualisation est proposée. Elle repose sur l'identification d'un ensemble restreint de cartes prototypes d'inondation, qui représentent de manière optimale la distribution de probabilité continue des cartes. Cette approche s'appuie sur une adaptation de l'algorithme de Lloyd au contexte des événements rares simulés via des codes de calcul coûteux. Dans cette optique, un métamodèle des sorties spatiales est mis en place, utilisant l'analyse en composantes principales fonctionnelles et la régression par processus gaussiens. L'échantillonnage est également adapté grâce à des techniques d'importance sampling. Le package R FunQuant a été développé en parallèle pour faciliter la reproduction de ces travaux sur d'autres cas d'application.
Ensuite, la méthode d'Augmented Quantization est présentée, afin de proposer des modèles de mélanges permettant d'intégrer diverses distributions, notamment des mesures de Dirac ou uniformes. Cette approche, basée sur une reformulation du problème classique de quantification à l'aide de la distance de Wasserstein, est appliquée notamment à l'étude de l'influence des variables d'entrée sur un régime d'inondation spécifique.
Deux cas d'application sont traités: un cas fluvial concernant la Loire, et un cas côtier portant sur les Boucholeurs, situé sur la côte Atlantique française.
_____________________
Parameter estimation for point processes is achieved via solving optimisation problems built using general strategies. Three well established strategies are enumerated. The first consists of considering contrast fuctions based on summary statistics. The second one uses the pseudo-likelihood. And the third approximates the likelihood function via Monte Carlo procedures. Each of these techniques has known advantages and drawbacks (Moler and Waagepetersen 2004, van Lieshout 2001, 2019).
Sampling point process posterior densities is an inference approach deeply intertwinned wih the previous one, since it allows simultaneous parameter estimation and statistical tests based on observations. The auxiliary variable method (Moller et al.,2006) gives the mathematical solution to this problem, while pointing out the difficulties of its practical implementation due to poor mixing. The exchange algorithm proposed by (Murray et al. 2006), (Caimo and Friel, 2011) proposes a solution for the poor mixing induced by the auxiliary variable method. As its predecessor it requires exact simulation for the sampling of the auxiliary variable. This is not really a drawback, but it may explode the computational time for models exhibiting strong interactions (van Lieshout and Stoica, 2006).
This talk presents the approximate ABC Shadow and SSA methods as complementary inference methods to the ones based on posterior density sampling. These methods do not require exact simulation, while providing the necessary theoretical control. The derived algorithms are applied on data from several application domains such as astronomy, geosciences and network sciences (Stoica et al.,17), (Stoica et al.,21), (Hurtado et al.,21), (Laporte et al.,22).
_____________________
_____________________
Machine learning methods can be a valuable aid in the scientific process, but they need to face challenging settings where data come from inhomogeneous experimental conditions. Recently, meta-learning approaches made significant progress in multi-task learning, but they rely on black-box neural networks, resulting in high computational costs and limited interpretability. Leveraging the structure of the learning problem, we argue that multi-environment generalization can be achieved using a simpler learning model, with an affine structure with respect to the learning task. Crucially, we prove that this architecture can identify the physical parameters of the system, enabling interpretable learning. We demonstrate the competitive generalization performance and the low computational cost of our method by comparing it to state-of-the-art algorithms on physical systems, ranging from toy models to complex, non-analytical systems. The interpretability of our method is illustrated with original applications to physical-parameter-induced adaptation and to adaptive control.
Fore more on this: https://arxiv.org/abs/2312.00477
_____________________
La pollution atmosphérique urbaine, fléau mondial causant des millions de décès par an, rend les cartographies précises de ce phénomène non seulement pertinente mais vitale pour la santé publique.
Actuellement, la surveillance de la qualité de l'air est assurée par des stations fixes de surveillance de la qualité de l'air. Ces stations de référence fournissent une mesure très précise de la qualité de l'air au prix d'une couverture spatiale limitée.
L'idée d'utiliser de nouveaux capteurs à faible coût développés à partir de récentes avancées technologiques, plus petits, intégrant un système de positionnement global (GPS) a rapidement émergée. Les scientifiques disposent ainsi d'outils supplémentaires pour affiner les cartes spatio-temporelles de la pollution atmosphérique et créer de nouveaux ensembles de données fournissant des informations sur la qualité de l'air qui n'étaient pas disponibles auparavant. La génération de cartographies précises de la qualité de l'air à l'aide de ces capteurs bas coût présente plusieurs défis majeurs. Ces défis sont principalement liés à la nature du phénomène étudié, à la précision et au volume des données.
Compte tenu de ces difficultés, il est essentiel de savoir comment combiner toutes ces sources de données floues pour obtenir une image claire de la pollution urbaine.t.
_____________________
The seminary starts by an informal and intuitive presentation of the model using a vignette targeting potential practitioners interested in the model. This part will go over the parametrization of the model and a couple applications on real data sets.
Then, I will go deeper into some technical points. Following what interests the public, we can talk about:
- Nearest Neighbor Gaussian Processes and Vecchia approximations.
- Interweaving methods for MCMC in geostatistics.
- Hybrid Monte-Carlo for MCMC in geostatistics.
- Or any subject the public is interested in and I might know about - if I do indeed know about it.
_____________________
Ecological Diffusion (ED) models are statistical space-time models for abundance or occupancy data which intend to mimic the mechanics of physical diffusion phenomena for studying the spread of animal population. These models consist mainly in space-time random fields taking discrete values over regions of the space-time (usually over discrete space-time grids) which are supposed independent with the mean value respecting a diffusion PDE, plus a hierarchically defined error modelling. Two main problems arise for this kind of modelling: first the independence assumption may be too strong, and how to propose a pertinent model with space-time auto-correlation is an open question; second, while trying to emulate a mechanistic modelling approach, the model actually lacks physical meaning and it is not adapted to integrate different type of data such as individual-following information.
We propose two kinds of models based on individual movement which may provide an alternative approach to solve this issue. In both cases, a trajectory model for the movement of the individuals is proposed, the abundance being the count of the moving individuals. The first model is aimed to model the situation of taking snapshots of regions of the space at given times and counting the individuals there and then, with a possible detection error. This model has the particularity of having the same mean behavior of ED models if the trajectory model is taken to be Brownian motion or more generally a diffusion. The second model aims to model the capture of individuals, that is, the individuals are retained in traps where they may fall or not. The model follows an axiomatic approach following simple and intuitive mechanistic and epistemological conditions. Under the proposed axioms, it is proven that the moment of capture of an individual is an extended-real random variable whose density over the real line must be the solution of a Volterra integral equation of the second kind. We discuss some difficulties concerning the application of these models to real data, which consist in an almost intractable likelihood function and some particular details which are present in the simulation methods for the capture model.
_____________________
This work aims to simulate 2D structural geological models, or geomodels, that respect given knowledge and data. By definition, geomodeling is an ill-posed problem due to the limited quantity and quality of available data. Current geomodeling methods struggle to both characterize uncertainties and produce realistic geomodels.
To achieve this goal, a deep generative adversarial network (GAN) has been implemented. GANs, which are usually used in image generation, need a large training dataset. For instance the ImageNet dataset contains more than 1.5 million images. In geomodeling, such a large real dataset does not exist. Fortunately, geological structures are a consequence of physical and chemical processes, so creating a synthetic dataset is feasible from the simulation of these processes. The training dataset is created from Noddy, which can be viewed as an object-based simulator. The use of advanced GANs like Least-Square GAN (LSGAN) and Wasserstein GAN allows training a deep neural network called the Generator. The Generator defines an implicit distribution of geological models. This is a function that transforms a random vector into a geomodel similar to the training dataset.
However, the Generator produces unconstrained geomodels. A variational Bayesian approach is used in order to train a Sampler, which enables the generation of geomodels that fulfill constraints, or conditioned geomodels. Thanks to the versatility of the variational Bayes approach, constraints can be of different types and quality, for instance rock type, rock orientation or geophysical data. The goal of the Sampler is to find the posterior distribution where the Generator produces the desired conditioned geomodels. Using a variational Bayesian approach makes it possible to take into account different types of data, with their own quantity and quality without re-training the Generator.
Finally, the combination of the Sampler and the GAN allows the generation of conditioned geomodels. In addition, this approach enables handling uncertainties and to perform computation, since the resulting generator produces an implicit distribution of conditioned geomodels.
_____________________
Dans cet exposé je présenterai l'article "Variational inference via Wasserstein gradient flows" de Marc Lambert, Sinho Chewi, Francis Bach, Silvère Bonnabel, et Philippe Rigollet, publié dans NeurIPS en 2022. Dans cet article, nous donnons une nouvelle méthode pour approximer un distribution de probabilité postérieure (inférence bayésienne). Nous proposons pour ce faire une alternative aux méthodes bien établies de MCMC, basée sur de l'inférence variationnelle. Notre but est d'approximer la distribution cible par une gaussienne, ou un mélange de gaussiennes, aux statistiques faciles à calculer. Cette approximation est obtenue comme limite asymptotique d'un flot gradient, au sens de la métrique du transport optimal sur l'espace des distributions gaussiennes (distance de Bures-Wasserstein). Cela permet d'obtenir des garanties de convergence fortes pour les distributions log-concaves.
_____________________
Les mesures de similarité (ou de dissimilarité) sont un ingrédient clé de nombreux algorithmes d'apprentissage automatique. Nous présentons la DID, une mesure de dissimilarité par paire applicable à un large éventail d'espaces de données, qui tire parti de la structure interne des données pour être invariante aux difféomorphismes. Nous prouvons que la DID possède des propriétés qui la rendent pertinente pour l'étude théorique et l'utilisation pratique. En représentant chaque donnée comme une fonction, la DID est définie comme la solution d'un problème d'optimisation dans un espace de Hilbert à noyau reproductif (RKHS) et peut être exprimée sous forme analytique. En pratique, la DID peut être approché efficacement par un échantillonnage de Nyström. Des expériences empiriques confirment les mérites de la DID.
_____________________
Au cours des dernières années, les méthodes basées sur l'apprentissage profond sont devenues populaires pour relever des défis importants liés à la reconstruction, à la prévision et à la quantification des incertitudes associées à des variables géophysiques disponibles uniquement à partir d' observations partielles et potentiellement bruitées. Parmi ces nouvelles approches, 4DVarNet, un schéma neuronal reposant sur une formulation d'assimilation de données variationnelle, a montré des résultats intéressants sur de nombreuses applications. Dans ce cadre, les modèles a priori et le solveur sont appris conjointement pour estimer l'état du système dynamique à reconstruire.
Dans une récente extension de ce travail, une première version ensembliste de cet algorithme a été proposée : elle combine à la fois l'efficacité de 4DVarNet en termes de coût computationnel et de performances de validation avec une méthode de type Monte-Carlo réalisant un post-traitement de la reconstruction, qui conduit à l'estimation de la distribution à posteriori. Cette configuration préliminaire implique d'échantillonner des réalisations indépendantes de l'état réalisées parmi un catalogue de données issu des modèles déterministes. Une approche plus générale est également explorée : plutôt que d'échantillonner dans un ensemble de données historiques, nous proposons de formuler l'a priori comme la réalisation d'un processus gaussien (GP) généré par des équations aux dérivées partielles stochastiques comportant des termes d'advection et de diffusion interprétables. Des applications sont fournies sur un modèle gaussien à diffusion non stationnaire en espace et sur une étude de cas impliquant une expérience idéalisée (OSSE) de la hauteur de surface de l'océan (SSH). Cela ouvre la voie à un 4DVarNet stochastique piloté par une modélisation générative et des liens potentiels avec des modèles neuronaux entièrement basés sur des modèles de diffusion stochastique.
_____________________
Les mesures aléatoires de second-ordre ont leur structure de covariance déterminée par une bi-mesure. En faisant l'hypothèse que cette bi-mesure peut être identifiée à une mesure sur l'espace produit, on obtient une régularité supplémentaire qui permet d'obtenir une grande variété de résultats mathématiques, tout en gardant une généralité suffisante pour englober une bonne partie des mesures aléatoires couramment utilisées en théorie et en pratique (mesures aléatoires orthogonales, processus de Cox, etc.). Nous présentons trois résultats sur ces mesures aléatoires qui ont de l'intérêt en Probabilités et Statistiques.
Le premier est l'existence d'une décomposition de type Karhunen-Loève pour les mesures aléatoires finies: toute mesure aléatoire de ce type peut se décomposer en une série de mesures finies déterministes (orthogonales dans un certain sens) pondérées par des variables aléatoires non-corrélées à variances sommables. Le deuxième est l'analyse d'une classe d'équations aux dérivées partielles stochastqiues (EDPS) d'évolution du premier ordre et linéaires sur l'espace-temps euclidien, où le terme source est tel que sa transformée de Fourier spatiale est une mesure aléatoire. Enfin, le troisième résultat porte sur la possibilité de définir de manière unique l'intégrale stochastique d'un processus stochastique continue en moyenne-quadratique par rapport à une mesure aléatoire sur l'espace Euclidien. Pour cela, un nouveau concept est introduit: l'auto-intégrale du noyau de covariance croisée, qui est définie comme "l'intégrale du noyau par rapport à lui-même". Ceci se présente comme un petit pas vers le développement d'un calcul stochastique non-linéaire basé sur des structures de covariance.
_____________________
Les modèles de diffusion pour le débruitage sont une classe récemment développée d'algorithmes d'apprentissage génératif profond qui ont atteint une grande popularité pour leurs capacités de génération d'images réalistes (Dall-E, MidJourney). Ma thèse porte sur les modèles génératifs et leur utilisation en géostatistique. J'ai donc commencé à travailler avec ces modèles. Dans ce séminaire, je présenterai le fonctionnement des modèles de diffusion pour le débruitage, leur utilisation possible et quelques résultats préliminaires que j'ai obtenus jusqu'à présent.
_____________________
Entre 2019 et 2023, j'ai été post-doctorant au LIP6 (Sorbonne Université), sur des thématiques liées à l'analyse topologique de données, avec la bibliothèque logicielle The Topology ToolKit (TTK). Ma présentation sera un retour sur ces quatre années. Je présenterai quelques concepts de base de l'analyse topologique de données, en particulier les diagrammes de persistance, qui encodent la signature topologique d'un champ scalaire. Je parlerai également de l'utilisation de méthodes topologiques pour analyser des jeux de données en haute dimension. Je montrerai quelques applications variées de méthodes topologiques : analyse de simulations d'ensembles, quadrangulation de surface, segmentation d'image. Enfin, je parlerai de quelques améliorations de performance et/ou de qualité logicielles auxquelles j'ai participé. Cette présentation sera illustrée par des exemples manipulés sous ParaView et exécutant notre bibliothèque logicielle TTK.
_____________________
Tropical cyclones that make landfall can generate storm surge when intense wind stress pushes sea water onshore. This causes coastal water levels to rise to dangerous levels, threatening significant flooding and damage to human life and property. Storm surge is one of the costliest natural hazards associated with tropical cyclones and is especially prevalent in the Gulf of Mexico and the Western Pacific basin.
The insurance industry has a keen interest in modeling storm surge risk. Descartes Underwriting provides parametric insurance covers, where payout triggers are based on a physical index like peak water elevation rather than a lengthy loss adjustment process, enabling rapid recovery after catastrophic events. We develop a Gaussian process (GP) surrogate model to predict the peak water elevation footprint of any surge-inducing tropical cyclone event. The model is trained on a dataset of storm surge numerical simulations that span the full range of realistic cyclone parameters and landfall locations along the Gulf of Mexico.
To overcome scalability issues, the model is implemented using the Gpytorch Python library. It involves GPU-accelerated matrix multiplications to speed up GP training and inference. In the computation of the marginal loglikelihood, a modified conjugate gradient algorithm is used to return the linear solve, trace, and log-determinant terms in quadratic time. Training exact Gaussian processes on millions of data points is thus made tractable on modern computing hardware. We illustrate our approach with the case of Hurricane Ian which struck Florida in September 2022 and caused insured losses exceeding $50 billion, making it the second costliest hurricane in US history.
_____________________
Différentes méthodes ont été proposées depuis longtemps pour rendre l’estimation d’une charge hydraulique ou des concentrations d’une contamination cohérente avec la physique des écoulements. Cette cohérence est également nécessaire pour la résolution du problème inverse, c’est-à-dire l’estimation du champ de perméabilités (ou de transmissivités) à partir des mesures de la charge. Après une revue bibliographique (non exhaustive), des résultats récents de comparaison entre krigeage avec dérive externe et krigeage avec covariance numérique sont présentés. Les perspectives proposées à la discussion portent sur le problème inverse et la comparaison à la démarche SPDE.
Basé sur: Chantal de FOUQUET, Mathieu Le Coz, Xavier Freulon, Léa Pannecoucke. Making kriging consistent with flow equations: application of Kriging with Numerical Covariances for estimating a contamination plume. Hydrogeology Journal, en révision.
_____________________
Lorsqu'on traite de la quantification de l'incertitude en géosciences, on considère souvent les paramètres du modèle physique comme un grand vecteur aléatoire et on cherche à caractériser sa distribution étant données des observations. Dans le cadre bayésien, une distribution a priori de ce vecteur est choisie et la relation avec les observations est modélisée. La distribution a posteriori pourrait être obtenue directement à l'aide du théorème de Bayes, mais cette approche impliquerait une constante de normalisation qu'il est généralement impossible de calculer. L'approche la plus répandue consiste alors à travailler avec des échantillons de cette distribution, généralement obtenus par méthodes de Monte-Carlo par chaînes de Markov. Cependant, leur temps de calcul les rend prohibitifs pour les applications réelles, ce qui explique pourquoi les approches bayésiennes variationnelles gagnent en popularité. Dans ce cadre, la distribution a posteriori est directement approchée en trouvant le candidat le plus "proche" parmi une large classe de fonctions paramétrées, transformant ainsi le problème d'échantillonnage en un problème d'optimisation. Dans cet exposé, nous passerons en revue quelques exemples de motivation (simulations géostatistiques conditionnelles, problème inverse, conditionnement de modèles génératifs profonds) anisi que les principes et algorithmes principaux qui sous-tendent ces méthodes.
_____________________
Sujet 1: Bayesian Variational Inverse Problem: Application to Seismic Imaging - Yuke Xie
Full-waveform Inversion (FWI) is a widely used method in geophysical seismic imaging to estimate the subsurface unknowns and parameters, such as velocity and density, from seismic waveform observations to explore subsurface reservoirs. FWI is based on the inverse problem of acoustic wave propagation and is used to obtain a high-resolution image of the subsurface structure. This method usually determines a unique solution of subsurface images, without associated uncertainties. We are trying to use a Bayesian approach to avoid the local minimum and quantify uncertainties of the subsurface model. Additionally, we aim to explore the potential of deep learning methods in avoiding these limitations in seismic imaging.
Sujet 2: Quantification of extreme climate events and multivariate bias correction - Grégoire Jacquemin
The objective of my PhD thesis is to build a statistical relationship between high-impact catastrophic compound events and large-scale structures that are necessary conditions to trigger those compound events on reanalysis data in the near past, and to project this relationship in the future to asses these catastrophic events in terms of frequency, amplitude and impact. Given the shortcomings of the univariate bias corrections, several multivariate bias correction methods will be tested and compared in the near-past (as well as compared to the univariate correction, as benchmark) and the best correction method will be selected for projection.
_____________________
L'objet de la présentation est l'estimation de la probabilité d'occurence d'évènements spécifiés par des lois multivariables définies dans des espaces de grande dimension. On examine ce que peut apporter l'utilisation de méthodes séquentielles de Monte Carlo. La loi multigaussienne sera utilisée pour les illustrations.
_____________________
La prise en compte de relations non linéaires entre variables est nécessaire pour une bonne évaluation des ressources minérales ou des risques environnementaux. Dans un cadre mono-variable, le modèle Gaussien permet de construire et simuler une fonction aléatoire stationnaire avec une covariance et un histogramme fixés. La généralisation de ce modèle au cas multi-variable requiert une transformations multi-variables non nécessairement linéaires des données initiales pour se ramener à des champs Gaussiens indépendants. Différentes transformations seront discutées et en particulier l’approche par « Projection Pursuit » afin d’identifier quelques potentielles pistes.
_____________________
This conference aims to bring together researchers and engineers from the academic and industrial sectors to address the use of statistical methods for industrial safety and decommissioning challenges. Four topics will be covered: spatial statistics for pollution characterization, measurements and uncertainty, metamodelling techniques and risk analysis techniques.
_____________________
Une des applications des statistiques spatiales est de données ponctuelles. Dans ce cadre, la position des points de données ainsi que leur nombre sont l’objet de l’étude (ex : répartition spatiale d’un certaine espèce d’arbre dans une forêt). On cherche alors à caractériser la structure de ces points : Répartition régulière? Répartition aléatoire uniforme ? Présence d’agrégats ? Où ça ? Existe-il une structure spatiale des agrégats? Lorsque leur répartition n’est pas régulière ou déterministe, on étudie ces points en les considérant comme issus d’un processus ponctuel spatial, c’est-à-dire un processus aléatoire faisant apparaître des points en certaine quantité et selon une certaine probabilité dans une domaine d’étude. Après une introduction sur les modèles et outils basiques utilisés pour l'étude des processus ponctuels, nous nous intéressons à une méthode d'inférence proposée par Cronie et al. (2021), et appelée "Point Process Learning", dont le but est d'adapter des méthodes d'inférence utilisées en apprentissage statistique supervisé dans le cadre de l'inférence de caractéristiques de processus ponctuels. Nous présenterons en particulier une approche visant à estimer le support et les paramètres de la distribution de processus ponctuels dits de Poisson.
_____________________