TP métagénomique

Le TP porte sur l'analyse d'une communauté synthétique composée de cinq souches bactériennes:

Terriglobus roseus DSM 18391
Coraliomargarita akajimensis DSM 45221
Phaeobacter inhibens DSM 17395
Pseudomonas stutzeri DSM 4166
Geodermatophilus obscurus DSM 43160

Il s'agit d'un jeu de données de séquençage Illumina Miseq, comprenant 759 085 lectures pairées et qui est répertorié dans l'ENA (European Nucleotide Archive) sous l'identifiant SRR3405421. Le numéro DSM désigne la souche suivant le catalogue du Leibniz-Institut DSMZ. La fiche ENA de ce jeu de données est disponible à https://www.ebi.ac.uk/ena/browser/view/SRR3405421

Voici la taxonomie des cinq espèces en présence :

L'objectif de la première partie du TP est de réaliser une analyse de cette communauté par différentes approches:

analyse taxonomique directement sur les lectures (read-based) avec Metaphlan2, Kraken (One codex) et Kaiju.
analyse fonctionnelle sur les lectures avec assemblage (MetaSPAdes puis MetaGeneMark et Intepro) et sans assemblage (MGnify). MGnify fournit également une analyse taxonomique.

Suivant les outils, le travail sera sous Galaxy (assemblage) ou sur des sites web externes (Kaiju, MetaGeneMark, Interpro). Nous avons précalculé les résultats pour MetaPhlan2 en raison du temps de calcul nécessaire et pour Kraken-One codex car le site est gratuit mais requiert une inscription.

Les lectures ont préalablement été contrôlées et nettoyées avec FastQC et Trimmomatic.

Données

Toutes les données sont disponibles dans l’historique partagé Galaxy “Datasets TP MetaG” au format FASTQ:

Lectures brutes : SRR3405421_1.fastq.gz et SRR3405421_2.fastq.gz
Lectures nettoyées: SRR3405421.trimmomatic_1P.fastq.gz, SRR3405421.trimmomatic_1U.fastq.gz, SRR3405421.trimmomatic_2U.fastq.gz, SRR3405421.trimmomatic_2P.fastq.gz.

Nous vous fournissons également les deux fichiers FASTA des lectures pairées après nettoyage, à sauver sur votre disque:

Cela sera utile pour l'analyse taxonomique (Kaiju et One Codex éventuellement).

Analyse taxonomique

Metaphlan2

Le premier outil testé est Metaphlan2, qui utilise une base de données de marqueurs caractéristiques des différents clades. Les résultats ont été précalculés, et vous pouvez les visualiser: résultats au format texte .

Combien de phyla sont identifiés ?
Jusqu'à quel degré de précision la prédiction est-elle faite ?
Quelles espèces sont trouvées ? Avec quelle abondance ?

Kraken - One codex

One codex est un serveur web qui reprend l'algorithme mise en oeuvre dans Kraken, basé sur les k-mers discriminants. Les résultats avec One Codex ont été précalculés et sont disponibles sur le serveur.

Rendez-vous sur onecodex.com. Demandez-moi les identifiants de connexion (login et mot de passe). Il s'agit de l'échantillon sample2_SRR3405414
A première vue, combien d'espèces sont-elles trouvées ? Laquelle manque-t-il ?
En bas de la page, vous pouvez consulter les résultats détaillés sous forme de tableau. Que peut-on dire maintenant?
Quelle taxonomie One Codex utilise-t-il ?

Vous pouvez télécharger le fichier de reads contenant le détail de l'analyse (Read-level data). Chaque ligne du fichier correspond à un read du jeu fichier FASTA (ou FASTQ) initial. Il y a quatre colonnes.

Tax ID identifiant dans la taxonomie de l'élément qui a été assigné au read
N Hits : nombre de k-mers trouvés dans le read présents dans la base de données.
Seq Len: longueur du read
Passed Filter: T si le read passe le filtre de qualité, F sinon.

Kaiju

Le dernier outil testé dédié spécifiquement à l'analyse taxonomique est Kaiju, qui traduit les lecture sous forme de séquences d'acides aminés pour les comparer à des banques de protéines.

Connectez vous sur le site web : http://kaiju.binf.ku.dk/server et remplissez le formulaire de soumission. Pour les fichiers de lectures, prenez les fichiers FASTA nettoyés. Pour la base de données, vous pouvez sélectionner RefSeq Genomes. La saisie de l'adresse mail est optionnelle. Par contre, notez l'identifiant après la soumission pour retrouver vos résultats. L'exécution prend quelques minutes.

Les résultats sont disponibles sous forme de bubble plot, au format texte (taxon paths count) ou avec Krona.

D'après le bubble plot, combien de phyla sont identifiés ? Lequel contient plusieurs espèces ?
En regardant le Krona, de nouveau, que peut-on dire ?

Assemblage métagenomique

Vous allez construire l’assemblage de novo du jeu de données de séquençage SRR3405421.

Cette partie est réalisée sous l’environnement Galaxy. Le jeu de données est disponible dans l’historique partagé “Datasets TP MetaG”.

Qualité et nettoyage des données

Copiez les jeux de données bruts dans un nouvel historique (SRR3405421_1.fastq.gz et SRR3405421_2.fastq.gz).
Pour évaluer la qualité des lectures, lancez FastQC sur les deux fichiers pairés et parcourez les rapports HTML. Que peut-on dire sur la qualité ? Que pourrait-on faire pour nettoyer/améliorer ces jeux de données ?

Nous avons nettoyé pour vous les jeu de données avec l’outil Trimmomatic et les paramètres suivants:

Trimming des adaptateurs Nextera
Trimming sur la qualité (SLIDINGWINDOW:4:15 LEADING:10 TRAILING:10)
Filtre des lectures < 30nt
Sélection des lectures nettoyées pairées

Les jeux de données nettoyés sont disponibles dans l’historique partagé : SRR3405421.trimmomatic_1P.fastq.gz, SRR3405421.trimmomatic_1U.fastq.gz, SRR3405421.trimmomatic_2U.fastq.gz, SRR3405421.trimmomatic_2P.fastq.gz

Copiez les jeux de données nettoyés dans votre historique
Lancez FastQC sur ces jeux de données. En comparant avec les données brutes, que peut-on conclure sur la qualité de ces données nettoyées ?

MetaSPAdes

Nous vous proposons de faire l'assemblage avec MetaSPAdes, qui est une déclinaison de SPAdes dédiée à l'asemblage de reads métagénomiques. MetaSPAdes, comme SPAdes, est basé sur les graphes de De Bruijn.

Lancez metaSPAdes sur les données nettoyées pairées (fichiers *_1P.fq.gz et *_2P.fq.gz). Vous pouvez soit laisser les tailles de k-mer par défaut, soit activer le choix automatique des tailles de k-mer.
Combien de scaffolds obtenez-vous ?

Qualité de l'assemblage

QUAST (Quality Assessment Tool for Genome Assemblies) est un utilitaire qui permet d'explorer les résultats d'un assembleur, et de contrôler sa qualité.

Lancez QUAST en mode métagénomique sur les scaffolds de votre assemblage. Vous pouvez regarder le rapport au format tabulaire pour avoir des métriques descriptives sur l’assemblage que vous venez de faire. Combien y-a-t-il de contigs et de scaffolds dans votre assemblage ? Quel est la taille totale de l’assemblage ?
Téléchargez le fichier de scaffolds sur votre ordinateur. Il servira dans la partie suivante.

Analyse fonctionnelle

Assembly-based approach

La première manière d'aborder l'analyse fonctionnelle est de travailler sur les reads assemblés avec MetaSPAdes. Pour commencer, il faut localiser les gènes présents au sein de ces scaffolds. Nous vous proposons pour cela deux approches:

Approche 1: localiser les ORF, avec ORFfinder,
Approche 2: utiliser MetaGeneMark, qui comme FragGeneScan repose sur le biais d'usage des codons.

Pour l'approche 1, vous ferez ensuite une annotation par homologie, avec BLAST. Pour l'approche 2, vous ferez ensuite une annotation par recherche de motifs avec Interpro.

Recherche avec ORFfinder et BLAST

Reprenez les scaffolds que vous avez construits avec MetaSPAdes.
Sélectionnez un scaffold assez long.
Rendez-vous sur ORFfinder, collez le scaffold et sélectionnez une longueur minimale de 600nt: https://www.ncbi.nlm.nih.gov/orffinder/
Lancez l'outil. Les résultats sont affichés par ordre de taille décroissante pour l'ORF. Quelle est la longueur de l'ORF la plus longue trouvée ?
Lancez BLAST sur cette ORF, avec la base de données RefSeq (bouton BLAST en bas à gauche). Trouvez-vous une protéine orthologue ?

Recherche avec MetaGeneMark et Interpro

Ouvrez MetaGeneMark et lancez-le sur l'ensemble des scaffolds: http://exon.gatech.edu/meta_gmhmmp.cgi . Quels types de résultats est-il possible d’obtenir ? Enregistrez le fichier de protéines prédites sur votre ordinateur.
Pour enrichir cette prédiction de gènes, on peut faire une recherche systématique de motifs protéiques avec InterPro. Connectez-vous sur InterPro (https://www.ebi.ac.uk/interpro/) et lancez l’analyse sur la séquence d’une protéine prédite de votre choix. Vous pouvez explorer les résultats.

Read-based approach: MGnify

Pour l'analyse fonctionnelle, on peut aussi travailler sur les reads non assemblés. C'est ce que fait MGnify, le pipeline d'analyse métagénomique proposé par l'EBI. Pour cela, MGnify combine un prédicteur de gènes (FragGeneScan) avec la recherche de signatures protéiques (Interpro). Vous allez consulter les résultats obtenus sur ce jeu de données. MGnify effectue également une analyse taxonomique, à partir des ARN ribosomiques extraits des reads. L'analyse pour le jeu de données de la communauté synthétique porte l'identifiant MGYA00126485.

Rendez-vous sur le site de MGnify. Faites une recherche avec l'identifiant MGYA00126485. A quelle étude appartient cette analyse ?
Avec quelle version du pipeline l'analyse a-t-elle été conduite ? Vous pouvez visualiser les étapes du pipeline en cliquant sur le numéro.

Le contrôle qualité est accessible avec l'onglet Quality control, l'analyse taxonomique avec l'onglet Taxonomic analysis et l'analyse fonctionnelle avec l'onglet Functional analysis.

Consultez la classification taxonomique proposéee. Qu'en pensez-vous ? Retrouvez-vous la composition en espèces attendue ?
Consultez ensuite l'onglet de l'analyse fonctionnelle. Vous pouvez accéder aux motifs protéiques trouvés avec Interpro (IPR) et à la classification Gene Ontology qui en est dérivée (GO).

Les assemblages avec MGnify

Pour ce dernier exercice, vous allez changer de jeux de données, avec le projet MGYS00005619, qui est un projet de métagénomique intestinale.

Les données de séquençage ont fait l'objet d'assemblages. En plus des onglets précédents (Quality control, Taxonomic analysis et Functional Analysis), vous pouvez accéder à deux nouveaux onglets:

Pathways/systems: réseaux métabolomiques (KEGG) ou les complexes protéiques (Genome properties)
Contig viewer: visualisation des contigs assemblés avec IGV, munis de leur annotation fonctionnelle

, Explorez les différents onglets.