Argomenti di oggi
Esplorazione dei genomi: UCSC genome browser
Navigare l'informazione genomica: UCSC Genome Browser e Ensembl BioMart
L'enorme mole di dati genomici accumulatasi grazie alla disponibilità di tecniche di sequenziamento massivo del genoma ha posto il problema della visualizzazione e navigazione dell'informazione disponibile.
Per una introduzione ai browser genomici, ed in particolare allo UCSC Genome Browser dell'università della California Santa Cruz, possiamo aiutarci con le prime 13 diapositive di questa presentazione: A spasso nel tuo Genoma (fai click sul nome per scaricare il PDF)
Attività: dove mappa questa sequenza sul genoma?
Ipotizziamo che un tuo collega geniale, ma non particolarmente accurato nelle annotazioni, abbia trovato una sequenza interessantissima del genoma umano. Scopri di chi si tratta utilizzando lo strumento di mapping chiamato BLAT dello UCSC Genome browser, così:
scarica la sequenza misteriosa da qui: github.com/maghetta/teaching/blob/master/navigare_i_genomi/DNA_ignoto.txt
apri una finestra di browser sullo UCSC Genome Browser
dalla barra di menù in cima alla pagina, seleziona la voce Tools --> Blat
copia ed incolla nell'apposito riquadro la sequenza ignota, poi premi il pulsante Submit
guarda con attenzione il risultato ottenuto
a quale regione del genoma umano (cromosoma e coordinate di inizio e fine) corrisponde secondo te il DNA ignoto?
Visualizzare intervalli genomici di interesse: Il formato di dati BED (Browser Extensible Data)
Il formato BED (Browser Extensible Data) è un formato di testo semplice (delimitato da spazi o tabulazioni) in cui ogni riga specifica un intervallo genomico (righe di dati), oppure delle opzioni di modalità di visualizzazione dei dati (riga di intestazione) nel browser genomico UCSC (esempio: colore degli intervalli, nome e descrizione della serie di dati, ...).
I primi tre campi (o colonne) di un file BED sono obbligatori e contengono:
cromosoma: nome del cromosoma (es. chr3, chrY, 2) .
coordinata di inizio (chromStart): posizione di inizio dell'intervallo da visualizzare sul dato cromosoma (0-based).
coordinata di fine (chromEnd): posizione di fine dell'intervallo da visualizzare sul dato cromosoma (*).
(*) Nota che la coordinata di fine di un intervallo genomico NON viene visualizzata nel browser. Ad esempio, le prime 100 basi di un cromosoma sono definite come chromStart=0, chromEnd=100, e comprendono le basi numerate da 0 a 99.
I campi di cui sopra possono essere seguiti da un massimo di 9 campi BED aggiuntivi (che sono opzionali), di cui i più comunemente utilizzati sono:
nome (name) del dato intervallo genomico
punteggio (score) che è un valore numerico compreso da 0 e 1000.
filamento (strand) che può avere valori '+' o '-' (oppure '1' o '-1', a seconda della nomenclatura adottata per indicare il filamento di DNA).
Infine, un file BED può anche includere una riga di intestazione che descrive le sue impostazioni grafiche nel programma UCSC.
Genome Browser
Esempio di formato BED che mostra una riga di intestazione seguita da 3 righe di dati per altrettanti intervalli genomici:
track name='my track' description='my track description' color=255,0,0 visibility=2
chr8 128867449 128867455 geneA 99 +
chr8 128902915 128902921 geneB 1000 +
chr8 129001512 129001518 geneC 0 +
Per chi volesse approfondire, il formato BED è meglio descritto a questo link: http://genome.ucsc.edu/FAQ/FAQformat.html#format1
Attività: crea un file BED per una lista di geni di interesse
Ipotizziamo di aver fatto un esperimento, e che dall'analisi dei dati è emersa come particolarmente rilevante (ad esempio, differenzialmente espressa) la lista di geni contenuta in questo file: Lista_geni_di_interesse.txt (fai click sul nome per vedere il contenuto del file)
Ora vogliamo creare un file in formato BED per visualizzare la posizione di questi geni di interesse sul genoma umano. A questo scopo utilizzeremo il server BioMart già utilizzato nel Modulo 1, per procurarci le informazioni necessarie (nome cromosoma, coordinata di inizio del gene, coordinata di fine del gene) per generare il nostro file BED.
Per scoprire come fare, adatta opportunamente le informazioni contenute in questo Tutorial sul server tool BioMart, intitolato tutorial_BioMart.pdf (fai click sul nome per aprire il tutorial).
RIferimenti utili
[pagine di documentazione] genomeWiki dello UCSC Genome Browser
[video di documentazione] video tutorials, a diversi livelli di complessità, per esplorare le funzionalità dello UCSC Genome Browser