Durante el proceso de amplificación por PCR se pueden producir secuencias quiméricas, secuencias que no son productos reales de la amplificación del gen 16S. Es necesario eliminar estas secuencias irreales. Para esto podemos usar el programa VSEARCH usando como referencia un set de secuencias estándar, como SILVA 128.
Este proceso se puede correr mediante el script chimera_detector.sh que produce un reporte y nuevos archivos multifasta en los cuales ya se han eliminado las secuencias quiméricas y pueden ser usados para los subsecuentes análisis (QIIME o clasificación por RDP o mg_classifier).
El script utiliza archivos multifasta en el directorio y genera nuevos archivos libres de quimeras, utiliza la base de datos SILVA_128.dereplicated.fna.
$ chimera_detector file.fasta
Para analizar todos los archivos en el directorio (cualquier extensión es válida):
$ chimera_detector *.fna
Si se quiere especificar uno o varios archivos:
$ chimera_detector file1.fasta files2. fasta ...
NOTA: no es posible especificar archivos que estén dentro de otro directorio o subdirectorio (ej. mg_classifier secuencias/*.fasta).
Tener paciencia por que este análisis puede tardar varios minutos o incluso horas dependiendo del número de secuencias por muestra y el número de muestras. El script puede seguir corriendo incluso si se cierra la terminal, sin embargo, si se quiere terminar el proceso y que no siga, se puede teclear ctrl z
El script genera un nuevo subdirectorio con las secuencias libres de quimeras en formato fasta y listas para clasificar.