Lieu : IHP, salle 314 (Grisvard)
14.00 : Arthur Stéphanovitch (CREST, ENSAE)
Titre : Regularity of the score and convergence rates of generative diffusion models
Résumé : We show that diffusion-based generative models adapt to the smoothness of the target distribution: the learned score function inherits the target’s regularity. Leveraging this adaptivity, we obtain a concise proof that diffusion models achieve minimax-optimal rates for density estimation.
15.00 : Hugo Henneuse (Centre Borelli, ENS Paris Saclay)
Titre : Estimation de Modes Multiples et Homologie Persistante.
Résumé : La détection et la localisation des modes d'une densité de probabilité (i.e., les points où la densité atteint un maximum local) constituent un problème classique de statistique non paramétrique. L’estimation du mode global, lorsqu’il est unique, en particulier pour les densités unimodales, a longtemps concentré l’attention, conduisant à la fois à la conception d’algorithmes efficaces et à une caractérisation précise des vitesses minimax sous différentes hypothèses sur la densité sous-jacente. Le problème plus général de l’estimation de l’ensemble des modes est plus difficile. Plusieurs approches ont été proposées, notamment les méthodes de type mean-shift, qui donnent des résultats satisfaisants en pratique, mais dont les performances restent peu comprises théoriquement. Dans cette présentation, nous proposerons une alternative fondée sur un outil central de l’analyse topologique des données (TDA) : l’homologie persistante et sa représentation pratique via les diagrammes de persistance. Nous présenterons plusieurs résultats sur la consistance de cette approche, pour de larges classes de densités pouvant admettre des discontinuités (y compris en les modes) ainsi que son optimalité au sens minimax. Au-delà de l’estimation des modes, nous discuterons également du problème de l’estimation des diagrammes de persistance pour de telles densités.
16.00 : El Medhi Issouani (LMAC, UTC)
Titre : Conception d’aptamères d’ADN pour le diagnostic de la maladie de Lyme : combinaison d’approches expérimentales et computationnelles
Résumé : Les aptamères sont de courtes séquences d’ADN sélectionnées pour leur capacité à se lier à une cible moléculaire. Le protocole SELEX génère un jeu de données évoluant au fil de plusieurs cycles, pouvant être interprété comme un processus d’échantillonnage progressif, de plus en plus biaisé vers les séquences à forte affinité.À partir de données SELEX liées à la maladie de Lyme, nous proposons un cadre computationnel visant à modéliser la distribution des séquences issues du dernier cycle de sélection et à générer de nouveaux candidats aptamères. Notre approche repose sur des Restricted Boltzmann Machines (RBM), étendues par l’intégration de représentations de séquences inspirées du traitement automatique du langage naturel. Nous combinons ainsi un plongement continu dérivé du modèle RBM avec un plongement indépendant fondé sur des statistiques de type n-grammes, permettant une comparaison géométrique entre les séquences expérimentales et les séquences générées. Cette représentation combinée offre un moyen pratique d’explorer l’espace des séquences malgré un volume limité de données expérimentales. Les candidats générés in silico ont été sélectionnés puis évalués expérimentalement, montrant des résultats de liaison prometteurs et soutenant la pertinence de la méthodologie proposée.