Modèles à variables latentes en biologie et écologie

S. Donnet


Les modèles à variables latentes sont utilisés dans pratiquement tous les champs de la biologie et de l'écologie. On compte à leur nombre les modèles mixtes qui permettent de prendre en compte l'apparentement entre les individus dans les analyses génétiques ou les modèles de Markov cachés qui sont utilisés pour détecter des variations du nombre de copies d'ADN le long du génome ou de comportement dans le déplacement d'un animal. Le modèle Poisson log-normal qui fournit un cadre général pour la distribution jointe des abondances d'un ensemble d'espèces ou le modèle à blocs stochastiques (SBM) utilisé pour analyser la topologie de réseaux d'interactions font aussi partie des modèles à variables latentes.

D'un point de vue statistique, ces modèles ont la particularité d'inclure des variables non-observées (ou 'latentes', 'cachées'). Ils font donc partie des modèles à données incomplètes dont l'inférence requière en général d'établir la distribution conditionnelle des variables cachées sachant les variables observées.

La complexité de cette étape de l'inférence peut être appréhendée au travers du modèle graphique associé. Lorsque le modèle graphique présente une structure simple (fortement déconnectée, en chaîne ou arborescente), il est possible d'établir la distribution conditionnelle de variables cachées de façon exacte. Une revue de ces cas constituera la première partie du cours.

Dans les cas plus complexes, il est nécessaire d'avoir recours à des approximations de nature déterministe ou aléatoire auxquelles seront consacrées les deux parties suivantes. On présentera d'abord des approximations déterministes, notamment de type variationnel, puis des méthodes d'échantillonnages de type Monte-Carlo par chaîne de Markov permettant de mener à bien l'inférence de bon nombre de ces modèles.