Projets récents

PROJETS INDUSTRIELS

Developing and exploring the interest of interpretable deep learning approaches in the field of multi-omics data. Application on the MMRF CoMMpass database.

Collaboration avec SANOFI (2021 - )

The project is about the application of deep learning for phenotype prediction from multi-omics data. It focuses on

  • identifying the suitable architectures for each omics source;

  • integrating the multi-omic data into the hidden layers of a neural network;

  • interpreting the constructed model for biomarkers identification or patient stratification.

The project will be developed on both public datasets (pan-cancer) and the CoMMpass data (multiple myeloma).


Modèles génératifs profonds pour le design automatique de molécules thérapeutiques dans les domaines de l'oncologie et de la virologie

Collaboration avec Synsight (2021 - )

L’objectif du projet est de développer de nouveaux algorithmes génératifs pour le design de nouvelles molécules thérapeutiques et de les appliquer à différents programmes thérapeutiques. Ce projet peut être divisé en quatre problématiques : les modèles génératifs de molécules, la limitation du générateur aux inhibiteurs d’interaction protéine-protéine, l’intégration de la connaissance issue de microscopie par fluorescence et les applications thérapeutiques.

Apprentissage automatique pour la détection d'intrusion dans les systèmes du transport intelligent

Collaboration avec l'IRT SystemX (2017- )

Il s’agit de mettre en place des moyens de surveillance permettant de détecter les comportements suspects (potentiellement des intrusions) et, si nécessaire, d’entreprendre des actions de défense pour éliminer ou limiter les impacts des attaques informatiques à l’origine de ces comportements. La criticité des systèmes nécessite que la détection d’intrusion soit compatible avec les contraintes temps réel de la sureté de fonctionnement, et qu’elle soit basée à la fois sur la reconnaissance des signatures des attaques connues mais aussi sur la détection des anomalies. De plus, le caractère distribué des systèmes et la limitation des ressources informatiques (bande passante réseau, puissance du calcul, énergie) nécessite de considérer la détection et la réaction sur plusieurs niveaux à la fois (ex. capteur, véhicule, centre de contrôle).

Nous développons dans ce projet de nouvelles méthodes de deep learning pour la détection d’anomalies. Les réseaux construits prennent en compte la nature spécifique des données ainsi que leur aspect temporel et devront respecter les limitations techniques imposées par le matériel installé dans le véhicule autonome (taille mémoire, temps de réponses).

Réalisation d’une aide au diagnostic en orthodontie par apprentissage profond

Collaboration avec Dental Monotoring (2017-2021)

Les travaux de recherche portent sur le développement d’algorithme de deep learning afin d'émettre des diagnostics cliniques à partir d’images dentaires, suivie d’une évaluation complète des causes d’incertitudes sur la précision de la prédiction ainsi que sa criticité.

L’extraction de chaque dent dans les images est délicate notamment sur les cuspides des molaires ou sur la ligne de coupe à cause de phénomènes de masquage, d’ombrage et du manque de contraste entre les parties émaillées. Les techniques classiques d’extraction de contour ne permettent pas d’obtenir directement à partir des images un détourage correct et complet des dents. La première étape sera donc de développer un système de segmentation automatique des différents éléments de l’image, à savoir les dents, la gencive, la langue, etc. Une fois ces éléments identifiés, un modèle permettra de prédire différents pathologies ou défaut de l’appareil dentaire, comme : une carie, un dépôt de tartre, une bague décollée, un fil cassé, une gingivite, une récession de la gencive, une gouttière inadaptée, etc.

Un caractère singulier de ces données est leur nature multi-vue, plusieurs photos d’une même dentition sont prises. Ces photos présentent différents angles de vue, différente luminosité. Le réseau de neurones devra donc prends en entrée un ensemble de photos de la même dentition sous différentes conditions, les agréger et produire une prédiction.


PROJETS ACADEMIQUES

DeepIntegrOmics : Apprentissage profond de bout en bout pour la médecine de précision basé sur la métagénomique et l'intégration de données

DeepIntegrOmics abordera le développement de modèles pronostic ou diagnostic de routine ("point-of-care") basé sur la métagénomique. Il se concentrera sur deux questions de recherche dans l'utilisation de l'apprentissage profond pour la médecine de précision basée sur des données omiques multiples 1) atteindre une prédiction fiable à partir de données métagénomiques brutes et 2) améliorer la précision de la classification et la stratification en intégrant d'autres données omiques. Deux autres objectifs appliqués seront de proposer de nouvelles approches pour 1) l'identification des biomarqueurs omiques des stades de CMDs et 2) pour la stratification des patients par l'interprétation de ces architectures de réseaux neuronaux à partir d'une base de données phénotypées uniques. Nous utiliserons les données de 1844 patients issues du projet européen H2020 MetaCardis et, évaluerons la valeur pronostique de la stratification pour prédire la progression de la CMD pour 807 patients parmi les 1844 pour lesquels nous avons caractérisé leur évolution (changements cliniques) pendant 10 ans. Ces objectifs soutiendront la médecine translationnelle et de précision (c'est-à-dire la classification et la nouvelle stratification des patients) dans la perspective du déploiement de ces modèles pour une utilisation de routine dans les centres cliniques.

Financement : ANR (2021 - 2025)

DeepECG4U – Identification Of Patients At Risk Of Torsade De Pointes, A Life-Threatening Arrhythmia Using Ecg And Deep Learning

Certaines maladies cardiovasculaires (par exemple le syndrome congénital du QT long, cLQTS) ou le syndrome du QT long induit par les médicaments (diLQTS), peuvent provoquer une forme particulière d’arythmie ventriculaire appelée Torsade de Pointes (TdP), qui peut dégénérer entraînant la mort. La prédiction personnalisée automatisée du risque de TdP des patients cLQTS ou diLQTS, peut améliorer la précision de l’évaluation du médecin et réduire le risque d’événements indésirables. Nous visons ici à développer un tel outil utilisant l’intelligence artificielle (IA), qui est en train d’atteindre rapidement la pratique médicale. Dans ce projet, nous utiliserons ces algorithmes pour améliorer la précision, mais aussi pour fournir aux cliniciens de nouvelles stratification des patients. Enfin, nous rechercherons à améliorer l’interprétabilité des modèles et par conséquent la compréhension des mécanismes moléculaires sous-jacents à la TdP. Au sein du consortium, nous avons déjà exploré l’AP dans ce contexte et nos résultats préliminaires sont très encourageants. L’objectif du projet est de faire progresser ce sujet de recherche et de créer une application translationnelle déployé dans plusieurs services de cardiologie pilotes.

Financement : ANR (2020 - 2024)

Knowledge-Aware Data Augmentation for Transcriptomics

This project aims to design a methodology to augment small datasets by exploiting the available domain knowledge. Specifically, we consider the analysis of transcriptomics data, that plays a crucial role in the development of personalized medicine. This analysis, using machine learning methods, is hindered by the small size of the available datasets. On the other hand, a rich domain knowledge base is available, the Gene Ontology (GO).

We propose to learn an admissibility score of an expression profile, exploiting the existing dataset and a graph neural network whose architecture reproduces the directed acyclic graph structure of GO. A variational auto-encoder will be trained and biased to generate samples with a good admissibility score. The initial dataset, augmented with the generated “relevant enough” samples, will support the learning of classifiers along a semi-supervised setting, expectedly significantly improving the robustness and stability of the learned classifiers.

Financement : Digicosme (2021 - 2024)

Interprétation biologiques de réseaux de neurones profond appris à partir de données transcriptomiques

L’interprétation des réseaux de neurones et de leurs prédictions est un défi majeur. Les réseaux de neurones sont considérés comme des « boites noires », dans lesquelles les données des patients sont injectées en entrée puis une prédiction est calculée en sortie sans explication. L’union européenne a adopté récemment un texte imposant aux utilisateurs d’algorithmes d’apprentissage automatique d’être capables d’expliquer les décisions d’un modèle prédictif. Il y a donc un réel besoin de rendre les réseaux de neurones plus interprétables et cela est particulièrement vrai dans le domaine médical pour deux raisons. Premièrement, il est important de s’assurer que le réseau de neurones base ses prédictions sur une représentation fiables des patients et ne se concentre pas sur des artefacts non pertinents présents dans les données d’apprentissage. Sans explications des prédictions, les médecins ne peuvent pas faire confiance à un réseau de neurones quelques soit ses performances. Deuxièmement, un réseau de neurones performant pour la prédiction d’un certain phénotype, peut avoir identifié une signature dans les données transcritomiques qui pourrait être une piste de recherche pour les biologistes.

Financement : Projet DIM RFSI

Apprentissage profond pour la prédiction de phénotype à partir de données "omiques"

Bien que la littérature sur l’application de l’apprentissage automatique à l’analyse de données transcriptomiques soit abondante, l’utilisation de l’apprentissage profond est un domaine de recherche encore très récent. La grande majorité des articles publiés ont moins de deux ans et parmi eux seulement une poignée s’intéresse à la prédiction de phénotypes. La raison de ce faible nombre de travaux publiés actuellement provient du manque de grands jeux de données disponibles dû à leur coût élevé d’acquisition. Alors que les réseaux de neurones profonds traitant des images ou du langage naturel sont construits à partir de plusieurs centaines de milliers ou millions d’exemples, les jeux de données transcriptomiques contiennent très peu de patients (<1000). A cause de ce faible nombre d’exemples, l’apprentissage des réseaux de neurones profonds se heurte à des problèmes de sur-apprentissage, le réseau apprend par cœur les données mais pas le concept sous-jacent.

Pour pallier au problème de la petite taille des jeux de données transcriptomiques, nous nous inspirons des méthodes d'apprentissage par transfert, semi-supervisée et d'auto-apprentissage les plus performantes et les adaptons au problème des données omiques.

Financement : Interne