HCV Genotype Prediction Using a DNA-Based Deep Learning Foundation Model

Ariella Aro, EPM-UNIFESP

Abstract:

The determination of viral genotypes is critical for antiviral therapy effectiveness. The Hepatitis C Virus (HCV) has 7 known genotypes and numerous subtypes, which exhibit different responses to treatment. Therefore, identifying the specific genotypes and subtypes of those pathogens is essential for the success of possible treatments. Over the past decade, high-throughput sequencing methods have produced an abundance of genomic data, and that can be used for the evaluation of new technologies for classification and prediction tasks. Deep learning models such as GPT (Generative Pre-training Transformer) and BERT (Bidirectional Encoder Representations from Transformers) are currently the most adopted for tasks that involve large strings of text because they tokenize and learn the context of their elements, which is useful when dealing with large sequences of characters, such as genomic data. We used a pre-trained foundation model based on the transformer architecture of BERT, called dnaBERT, which is the current state-or-art for natural language processing (NLP) tasks. Our version of dnaBERT was fine-tuned to predict 6 out of 7 HCV genotypes, using HCV whole genome sequences fragmented to 1/10 of their original length for optimal performance. That process resulted in an accuracy of more than 97%, with minimal loss and only the genotype 5 having the least precision due to scarcity of data. The model used, due its characteristic way of processing DNA sequences the same way it would do to words in a phrase, was proven efficient for the HCV genotype classification task.

Predição do genótipos do HCV usando um modelo fundamenal de aprendizado profundo baseado em DNA

Resumo: A determinação de genótipos virais é crítica para a eficácia de uma terapia antiviral. O vírus da hepatite C (HCV) tem 7 genótipos conhecidos e vários subtipos, que apresentam diferentes respostas ao tratamento. Portanto, identificar os genótipos e subtipos específicos desse patógeno é essencial para o sucesso de possíveis tratamentos. Na última década, métodos de sequenciamento de alto rendimento produziram uma abundância de dados genômicos, e isso pode ser usado para a avaliação de novas tecnologias para tarefas de classificação e predição. Modelos de aprendizado profundo como GPT (Generative Pre-training Transformer) e BERT (Bidirectional Encoder Representations from Transformers) são atualmente os mais adotados para tarefas que envolvem grandes sequências de texto porque eles "tokenizam" e aprendem o contexto de seus elementos, o que é útil ao lidar com grandes sequências de caracteres, como dados genômicos. Usamos um modelo fundamental pré-treinado baseado na arquitetura de "transformer" do BERT, chamado dnaBERT, que é o estado da arte atual para tarefas de processamento de linguagem natural (NLP). Nossa versão do dnaBERT foi ajustada para prever 6 de 7 genótipos de HCV, usando sequências de genoma inteiro de HCV fragmentadas em 1/10 de seu comprimento original para desempenho ideal. Esse processo resultou em uma precisão de mais de 97%, com perda mínima e apenas o genótipo 5 tendo a menor precisão devido à escassez de dados. O modelo usado, devido à sua maneira característica de processar sequências de DNA da mesma forma que faria com palavras em uma frase, provou ser eficiente para a tarefa de classificação de genótipos de HCV.