TP métagénomique

Le TP porte sur l'analyse d'une communauté synthétique composée de cinq souches bactériennes:

Il s'agit d'un jeu de données de séquençage Illumina Miseq, comprenant 759 085 lectures pairées et qui est répertorié dans l'ENA (European Nucleotide Archive) sous l'identifiant SRR3405421. Le numéro DSM désigne la souche suivant le catalogue du Leibniz-Institut DSMZ. La fiche ENA de ce jeu de données est disponible à https://www.ebi.ac.uk/ena/browser/view/SRR3405421

Voici la taxonomie des cinq espèces en présence :

L'objectif de la première partie du TP est de réaliser une analyse de cette communauté par différentes approches:

Suivant les outils, le travail sera sous Galaxy  (assemblage) ou sur des sites web externes (Kaiju, MetaGeneMark, Interpro). Nous avons précalculé  les résultats pour MetaPhlan2 en raison du temps de calcul nécessaire et pour Kraken-One codex car le site est gratuit mais requiert une inscription. 

Les lectures ont préalablement été contrôlées et nettoyées avec FastQC et Trimmomatic.

Données

Toutes les  données sont disponibles dans l’historique partagé Galaxy “Datasets TP MetaG” au format FASTQ:

Nous vous fournissons également les deux fichiers FASTA des lectures pairées après nettoyage, à sauver sur votre disque:

Cela sera utile pour l'analyse taxonomique (Kaiju et One Codex éventuellement).

Analyse taxonomique

Metaphlan2

Le premier outil testé est Metaphlan2, qui utilise une base de données de marqueurs caractéristiques des différents clades. Les résultats ont été précalculés, et vous pouvez les visualiser: résultats au format texte .

Kraken - One codex

One codex est un serveur web qui reprend l'algorithme mise en oeuvre dans Kraken, basé sur les k-mers discriminants. Les résultats avec One Codex ont été précalculés et sont disponibles sur le serveur.

Vous pouvez télécharger le fichier de reads contenant le détail de l'analyse (Read-level data). Chaque ligne du fichier correspond à un read du jeu fichier FASTA (ou FASTQ) initial. Il y a quatre colonnes.

Kaiju

Le dernier outil testé dédié spécifiquement à l'analyse taxonomique est Kaiju, qui traduit les lecture sous forme de séquences d'acides aminés pour les comparer à des banques de protéines.

Les résultats  sont disponibles sous forme de bubble plot, au format texte (taxon paths count) ou avec Krona.

Assemblage métagenomique

Vous allez construire  l’assemblage de novo du jeu de données de séquençage SRR3405421.

Cette partie  est réalisée sous l’environnement Galaxy. Le jeu de données est  disponible dans l’historique partagé “Datasets TP MetaG”.

Qualité et nettoyage des données

Nous avons nettoyé pour vous les jeu de données avec l’outil Trimmomatic et les paramètres suivants:

Les jeux de données nettoyés sont disponibles dans l’historique partagé : SRR3405421.trimmomatic_1P.fastq.gz, SRR3405421.trimmomatic_1U.fastq.gz, SRR3405421.trimmomatic_2U.fastq.gz, SRR3405421.trimmomatic_2P.fastq.gz

MetaSPAdes

Nous vous proposons de faire l'assemblage avec MetaSPAdes, qui est une déclinaison de SPAdes dédiée à l'asemblage de reads métagénomiques. MetaSPAdes, comme SPAdes, est basé sur les graphes de De Bruijn.

Qualité de l'assemblage

QUAST (Quality Assessment Tool for Genome Assemblies) est un utilitaire qui permet d'explorer les résultats d'un assembleur, et de contrôler sa qualité.

Analyse fonctionnelle

Assembly-based approach

La première manière d'aborder l'analyse fonctionnelle est de travailler sur les reads assemblés avec MetaSPAdes.  Pour commencer, il faut localiser les gènes présents au sein de ces scaffolds. Nous vous proposons pour cela deux approches: 

Pour l'approche 1, vous ferez ensuite une annotation par homologie, avec BLAST. Pour l'approche 2, vous ferez ensuite une annotation par recherche de motifs avec Interpro.

Recherche avec ORFfinder et BLAST

Recherche avec MetaGeneMark et Interpro

Read-based approach: MGnify

Pour l'analyse fonctionnelle, on peut aussi travailler sur les reads non assemblés. C'est ce que fait MGnify, le pipeline d'analyse métagénomique proposé par l'EBI. Pour cela, MGnify combine un prédicteur de gènes (FragGeneScan) avec la recherche de signatures protéiques (Interpro). Vous allez consulter les résultats obtenus sur ce jeu de données. MGnify effectue également une analyse taxonomique, à partir des ARN ribosomiques extraits des reads. L'analyse pour le jeu de données de la communauté synthétique porte l'identifiant MGYA00126485.

Le contrôle qualité est accessible avec l'onglet Quality control, l'analyse taxonomique avec l'onglet Taxonomic analysis et l'analyse fonctionnelle avec l'onglet Functional analysis. 

Les assemblages avec MGnify

Pour ce dernier exercice, vous allez changer de jeux de données, avec le projet MGYS00005619, qui est un projet de métagénomique intestinale. 

Les données de séquençage ont fait l'objet d'assemblages. En plus des onglets précédents (Quality control, Taxonomic analysis et Functional Analysis), vous pouvez accéder à deux nouveaux onglets:

, Explorez les différents onglets.