L'allineamento multiplo di sequenze di geni o proteine permette di valutarne la similarità ed identificare porzioni di sequenza conservate fra diverse specie. In genere le regioni più conservate ricoprono importanti ruoli funzionali e sono utili per comprendere il funzionamento della proteina codificata e l'impatto delle variazioni proteiche. Le proteine presentano specifiche regioni più conservate, che sono essenziali per una specifica funzione, definite domini funzionali. Le proteine che condividono un medesimo meccanismo funzionale e peculiari caratteristiche di sequenza sono riunite in gruppi funzionali detti famiglie proteiche (famiglie geniche).
A causa delle ridondanza del codice genetico (molte triplette possono codificare per uno stesso aminoacido), in genere le sequenze di mRNA divergono più in fretta di quelle proteiche nel corso dell'evoluzione.
Esercizio 1. Allineamento multiplo di sequenze (geni o proteine). E' possibile utilizzare due diversi approcci:
I risultati sono mostrati con le diverse sequenze allineate fra loro. Gli asterischi indicano nucleotidi / aminoacidi identici. Le posizioni indicate con ":" o "." condividono nucleotidi / residui simili.
Esempio di risultato per sequenze di proteina. Nella prima parte sono mostrati eventuali domini funzionali trovati nella sequenza e uno schema delle sequenze trovate e allineate rispetto all'input
Scorrendo sono mostrati i risultati dettagliati per ogni sequenza allineata a quella di input. "Ident" indica il livello di identità fra le due sequenze. "Total score" è un valore decrescente in relazione alla bontà dell'allineamento fra le sequenze. Cliccando sui nomi delle sequenza nella colonna a sinistra viene motrato nel dettaglio l'allineamento. "Query" è la sequenza immesa come input e "Sbjct" la sequenza comparata.
Il gioco interattivo PHYLO permette di cimentarsi con allineamenti multipli, in competizione con gli altri utenti e comprendere rapidamente i meccanismi alla base dell'allineamento di geni in specie differenti.
Due geni che codificano per una proteina corrispondente in specie diverse sono definiti ortologhi, mentre geni codificanti proteine analoghe derivati dalla duplicazione di uno stesso gene all'interno di uno organismo sono definiti paraloghi. Il sequenziamento di numerose specie animali ha permesso l'identificazione degli ortologhi lungo l'albero evolutivo (analisi filogenetica) e la costruzione di alberi filogenetici che illustrano la diffusione e divergenza di un gene fra le diverse specie
Esercizio 2. Utilizzare Genomicus per visualizzare geni ortologhi del gene CFTR (o un altro gene di interesse) nelle diverse specie. Immettere il gene di interesse e selezionare "Homo Sapiens" dal menù a tendina. Cliccare "Go" per avviare l'analisi. I risultati mostrano l'albero filogenetico delle diverse specie. Il gene di interesse è al centro ed i box circostanti rappresentano gli altri geni presenti nella stessa zona per valutare la sintenia. Selezionando in alto "Protein similarity" è possibile ottenere una colorazione in funzione del grado di similarità delle sequenza del gene nelle diverse specie.
Ma quanto sono distanti evolutivamente 2 specie? Provate a recuperare questa informazione ad esempio per uomo (Homo sapiens) e zebrafish (Danio Rerio) utilizzando il portale TimeTree. Utilizzate la funzione "GET DIVERGENCE TIME FOR A PAIR OF TAXA".
Additional exercise. Le analisi filogenetiche hanno importanti applicazioni anche in ambito medico per mappare l'origine dei ceppi infettivi comparando le sequenze degli agenti patogeni campionati in diverse aree geografiche ed in diversi pazienti. Provare ad esplorare la diversità e l'origine dei ceppi di Ziks virus ed Ebola virus sul portale Nextstrain.
Lo studio dei geni ortologhi in modelli animali può fornire importanti informazioni sul ruolo dei geni e permettere di comprendere il loro funzionamento nell'uomo. A questo scopo sono stati intrapresi progetti di caratterizzazione a tappeto in diversi modelli (es. topo e zebrafish) in cui ogni singolo gene viene disattivato per studiarne le conseguenze biologiche.
Esercizio 3. Consultare il portale Mouse Genome Informatics per recuperare informazioni sul gene CFTR in mouse. E' possibile cercare inserendo il nome del gene nel box "QuickSearch" e premendo il pulsante. Il link diretto alla caratterizzazione del gene è raggiungibile qui. Sono riassunti tutti i dati principali sull'espressione del gene ed i fenotipi rilevati in topi knock-out (in cui il gene è stato inattivato).