Modulo 1

Argomenti di oggi

Genomica: cos’è? come nasce? Risorse utili in rete.

Risorse esplorate

NCBI Gene
Ensembl
GENCODE
NCBI PubMed
miRBase
miRTarBase
g:Profile
BioMart

Premessa

Quando nasce e, soprattutto, da quando diventa fondamentale la bioinformatica: cenni storici

[per chi volesse saperne di più]

→ un video [35'] che racconta il progetto genoma umano (1990-2003)

Alcuni termini di cui rinfrescare la memoria

DNA
gene
RNA messaggero
miRNA
trascrittoma
cromosoma
mutazione
genoma
proteina
codone
tripletta
codice genetico
trascrizione
traduzione
nucleotidi
amminoacidi

Bioinformatica genomica

Gli "ingredienti" per un'analisi bioinformatica

La domanda di base: cosa cambia tra la condizione A e la condizione B? Ad esempio, quali geni cambiano la loro espressione tra A e B?

Quali dati? Dove cercare le differenze? Le possibilità sono varie, e il livello su cui viene condotta l'indagine dipende dai dati a disposizione. Posso studiare ad esempio cosa cambia a livello morfologico, oppure a livello di proteine (presenza/assenza, abbondanza, modifiche). Nel caso della bioinformatica genomica, oggetto di studio sono in particolare gli acidi nucleici (DNA e RNA). Così ad esempio potrei chiedermi quali modifiche al DNA differenziano la condizione A dalla condizione B. Oppure, quali trascritti hanno variato la loro abbondanza tra la condizione A e la condizione B.

Tipi di dati, e discipline che li studiano.

Banche dati: una galassia!!! Con dei giganti...

Qui ad esempio esploreremo:

NCBI: https://www.ncbi.nlm.nih.gov/
- - - PubMed: https://pubmed.ncbi.nlm.nih.gov/
    - Gene: https://www.ncbi.nlm.nih.gov/gene
Ensembl: https://www.ensembl.org/index.html
- - - BioMArt: https://www.ensembl.org/info/data/biomart/index.html

Il genoma, innanzitutto

Il genoma: un codice prezioso, ricco di informazione, ma anche estremamente criptico

Ad esempio la bioinformatica sa trovare “motivi”. Una capacità particolarmente sfruttata nella fase di intensa annotazione delle sequenze genomiche che ha caratterizzato l'era post-genomica. Quando combinazioni di nucleotidi (motivi) particolarmente conservate durante l'evoluzione (indice di funzionalità) e/o ricorrenti nel genoma più frequentemente di quanto atteso per puro caso venivano individuati e annotati computazionalmente, per poi essere associati ad una determinata funzione di nuovo mediante predizione computazionale basata su confronto con sequenze già note, oppure mediante indagine sperimentale.

Domanda:

Quanta parte del genoma umano codifica per proteine?

(a.) meno del 5%

(b.) ~ il 75%

(c.) tra il 10 e il 30%

Attività (tempo: 10')

argomento: GENCODE

DOMANDE: QUANTI GENI SONO CODIFICATI NEL GENOMA UMANO? CODIFICANO TUTTI PER PROTEINE?

Per rispondere, esplora la risorsa GENCODE (https://www.gencodegenes.org/)

Nella tua esplorazione, prova anche a rispondere alle seguenti domande:

Qual'è l'obiettivo del progetto GENCODE?
Per quali specie sono disponibili le annotazioni di GENCODE?

Suggerimento per rispondere alla domanda. Dopo aver scelto HUMAN dalla pagina principale (scelta che dovrebbe portarti a questo link: https://www.gencodegenes.org/human/), segui il link che ti illustra la statistica della versione corrente della banca dati (Statistics of this release)

Ve lo ricordate il DNA?

Domanda:

Data la seguente sequenza di DNA presente ad un certo punto su un certo cromosoma umano:

5'-ATTGCGTCGGTACTG-3'

quale sequenza di nucleotidi si troverà appaiata ad essa sul filamento opposto?

Ottenere informazioni su un gene di interesse

NCBI Gene: https://www.ncbi.nlm.nih.gov/gene
Ensembl: https://www.ensembl.org/index.html

Attività (tempo: 25')

argomento: NCBI Gene e Ensembl

Utilizzando le due banche dati citate qui sopra (NCBI Gene e Ensembl), prova a rispondere alle seguenti domande che riguardano il gene umano ZFP36

Nota: sfrutta questa attività per esplorare visivamente, con calma, e con curiosità - scorrendo le relative pagine nelle 2 banche dati - i diversi blocchi di informazioni disponibili riguardo ad una dato gene di interesse.

su quale cromosoma risiede questo gene?
che tipo di proteina è?
qual'è il suo identificativo (ID) nella banca dati NCBI Gene? e nella banca dati Ensembl? Sono uguali?
qual'è il suo nome ufficiale (HGNC symbol)?
quanti trascritti sono annotati per questo gene nella banca dati Ensembl? Sono tutti codificanti per proteina?
quanti trascritti sono annotati per questo gene nella banca dati NCBI Gene? Sono tutti codificanti per proteina?

Attività (tempo: 10')

argomento: PubMed

DOMANDA: Negli ultimi 5 anni, sono stati pubblicati articoli scientifici che riguardino il gene ZFP36 ed abbiano dei dati associati?

Se si, quanti?

Per rispondere, utilizziamo la banca dati di letteratura scientifica NCBI PubMed (--> sai trovarne il link in rete?)

Note:

dal menù di sx, limita i risultati ad articoli con dati associati (Associated data)
sempre dal menù a sx, limita la ricerca agli ultimi 5 anni

Rinfreschiamo la memoria sui miRNA: cosa sono, cosa fanno

L'espressione dei miRNA è modulata nei diversi tessuti del corpo, così come pure durante lo sviluppo dell'organismo. È importante notare che l'espressione dei miRNA è anche drammaticamente alterata nei tumori e in altre malattie.

Ogni miRNA regola l'espressione di centinaia di geni target (la cui funzioe in generale è studiata da più anni e dunque meglio conosciuta). Per studiare un miRNA di interesse (ad esempio, un miRNA la cui espressione risulta molto alterata in un tumore), è utile andare a vedere chi sono i suoi geni target e cosa fanno nella cellula (esempio: in quali processi cellulari sono coinvolti? ).

Attività (tempo: 10')

argomento: miRBase

DOMANDA: Quanti precursori di miRNA sono codificati nel genoma umano? E quanti miRNA maturi?

Per rispondere, utilizziamo la banca dati miRBase, che raccoglie dati di sequenze e annotazioni di tutti i miRNA noti in qualunque specie.

Apri una finestra di browser sulla paagina principale di miRBase
Dal menù in alto, seleziona la voce "Download"
Scarica il file denominato "hsa.gff3" (→ perché prendiamo proprio il file hsa? per cosa stanno quelle 3 lettere?)

Il formato gff3 (General Feature Format) è un formato generico di annotazione di elementi genomici. (es. geni, oppure esoni, oppure miRNA, oppure siti di legame per fattori di trascrizione ...). Si tratta di un file di testo semplice con campi delimitati da tabulazione. Ogni riga in questo file corrisponde ad un elemento annotato e comprende 9 colonne di dati. Queste righe di annotazione possono essere precedute una o più righe di descrizione (opzionali) del contenuto del file che si riconoscono perché precedute tutte dal simbolo "#" a inizio riga. Maggiori dettagli sul formato gff e sui suoi campi si possono trovare qui: https://www.ensembl.org/info/website/upload/gff3.html

Apri un nuovo file di tipo foglio di calcolo (con MS Excel oppure Libreoffice Calc) e salvalo con il nome "hsa_gff3.xlsx".

NOTA: di seguito viene descritto cosa fare, piuttosto che come farlo, perché il dettaglio dei comandi dipende dal software usato e dalla lingua di uso. Verranno forniti come riferimento i comandi usati in Libreoffice Calc installato in lingua inglese, da adattare (se serve aiutandosi con ricerche in Google) al proprio caso.

Importa in questo file il contenuto del file "hsa.gff3", cominciando ad importare dalla 14a riga e specificando la tabulazione come separatore di campo.

[In Libreoffice Calc: selezionare dal menù in alto "Sheet" → "Insert Sheet from file"; poi dare il valore 14 al campo from row e selezionare solo la voce "tab" tra le Separator options. Lasciare gli altri parametri come da default. Poi premere OK]

inserire una riga a inizio folgio, prima di tutte le altre righe appena importate
assegnare un nome a piacere alle colonne (es. chromosome bum feature start end bum strand bum description)
attivare l'opzione di autofiltraggio sui valori delle colonne

[In Libreoffice Calc: selezionare dal menù in alto "Data" → "Autofilter"; compariranno dei triangoli accanto ai nomi delle colonne]

Quanti precursori di miRNA sono codificati nel genoma umano?

apri un nuovo foglio nello stesso file e chiamalo "precursori"
fai click sul triangolo in corrispondenza del nome della colonna C e, dal menù a tendina che compare, lascia la spunta solo sul valore "miRNA_primary_transcript".
ora copia/incolla le righe rimaste dopo il filtro applicato nel nuovo foglio denominato "precursori"

Ora dovresti essere in grado di rispondere alla domanda: quanti precursori ci sono nel genoma umano?

Suggerimento: controlla quante righe di dati ci sono nel foglio denominato "precursori"

Quanti miRNA maturi sono conosciuti nel genoma umano?

1. apri un nuovo foglio nello stesso file e chiamalo "miRNA_maturi"

Ora ripeti gli steps 2.-3. fatti per rispondere alla domanda precedente, adattandoli opportunamente alla domanda corrente.

Una volta fatto, dovresti essere in grado di rispondere alla domanda: quanti miRNA maturi si conoscono nel genoma umano?

Un'ultima domanda(ccia) per imparare a guardare nei file di dati con occhio curioso, una capacità indispensabile per bioinformatici di ogni livello!

Guardando attentamente la prima riga (o la riga che vuoli!) nel foglio che chiamato "miRNA_maturi", secondo te che tipo di identificativo hanno i miRNA maturi nella banca dati miRBase? e quale tipo di identificativo hanno invece i precursori di miRNA in miRBase?

Sapersi orientare sulla risorsa più adatta per la nostra analisi non è sempre così facile. [Immagini generate con l'intelligenza artificiale Dall-e]

Un caso esemplificativo lo offre proprio un'analisi di studio di miRNA

tools4miRs (https://tools4mirs.org/) è una piattaforma curata da esperti che attualmente colleziona e organizza per tipologia oltre 170 risorse (banche dati, web tools, software...) genericamente riferibili ad un'analisi incentrata sui miRNA. Per chi volesse approfondire: PMID: 27153626.

Come orientarsi quando le risorse alternative disponibili sono molte?

Es. banche dati di target validati di miRNA (decine)

Valgono criteri di buon senso, quali:

ultimo aggiornamento della risorsa (i dati contenuti sono aggiornati?)
numero di citazioni in articoli scientifici (quante pubblicazioni scientifiche hanno già scelto di usare questa risorsa?)
se disponibili, pareri e raccomandazioni dalla camunità di utenti (es. Stack Overflow, BioStars, SeqAnswers)

Attività (tempo: 45') : TARGET VALIDATI del miRNA hsa-miR-122

argomento: miRBase, miRTarbase, g:Profiler

QUALI SONO I TARGET VALIDATI SPERIMENTALMENTE DEL miRNA hsa-miR-122?

Per rispondere a questa domanda utilizzeremo diverse risorse:

miRBase: per definire meglio il nostro miRNA di interesse, cioé il prodotto prevalente della hairpin hsa-mir-122
miRTarBase: per ottenere la lista dei geni target di questo miRNA di interesse supportati da evidenza sperimentale
g:Profiler: per valutare eventuale arricchimento in qualche particolare processo biologico dei target di questo miRNA di interesse

(1) Qual'è il nostro miRNA di interesse?

Infatti, sappiamo che ogni precursore di miRNA (hairpin) può dare origine a 2 miRNA maturi, che differiscono completamente a livello di sequenza tra di loro, e che hanno dunque set di target diversi. Dunque, sebbene succeda spesso che ci sia ambbiguità nel riferirsi a miRNA maturi (anche negli articoli si parla spesso - sempre meno per fortuna - solo di "miR-122" o "miR-21", rendendo a volte complesso risalire a quale miRNA ci si riferisce, con la possibilità di rintracciarne la sequenza), un bioinformatico esperto deve sapere come cercare - quando possibile - di risolvere questa ambiguità, arrivando a definire più correttamente il miRNA oggetto di interesse in termini di "-5p" o "-3p". Solitamente, quando non meglio specificato, il miRNA cui ci si riferisce è la forma più abbondante originata dal precursore (hairpin) indicato dal nome. Andiamo a risolvere questa ambiguità per hsa-miR-122: a chi si riferisce la domanda così ambiguamente posta? In altri termini, qual'è la forma più abbondante di miRNA originati dalla hairpin hsa-mir-122? Per rispondere:

[i.] cerca hsa-miR-122 nell'apposita casella di ricerca testuale della banca dati miRBase

Nota che essendoci solo una hairpin corrispondente (hsa-mir-122), la ricerca ti porterà direttamente sulla pagina corrispondente. Per meglio comprendere il senso di questa nota, prova a vedere cosa succederebbe facendo una ricerca analoga per hsa-let-7a

[ii.] osservando la rappresentazione grafica del numero di reads osservate in esperimenti di Deep sequencing, quale delle 2 forme mature di miRNA generati a partire da questa hairpin ti sembra essere quella prevalente (cioé, solitamente più abbondantemente espressa) ? La forma "-5p" (hsa-miR-122-5p) oppure la forma "-3p" (hsa-miR-122-5p) ?

(2) Quali sono i geni target di hsa-miR-122-5p?

Per rispondere utilizzaremo la banca dati miRTarBase di target di miRNA validati sperimentalmente.

[i.] Vai alla pagina principale di questa banca dati (come puoi fare a trovarla?)

Una volta raggiunta la pagina principale, prova a rispondere alle sequenti domande:

per quante specie sono disponibili informazioni sui target di miRNA nella banca dati miRTarbase?
che versione è della banca dati quella corrente? a quando risale?

[ii.] Dal menù principale in alto alla pagina, seleziona la voce "Download"

Nota: Il nome del miRNA ci dice che si tratta di un miRNA umano, che cosa nel suo nome ce lo dice?

[iii.] Scarica il catalogo di interazioni miRNA-Target (MTI) validate sperimentalmente relative alla specie Homo sapiens

[iv.] Apri il file appena scaricato in un foglio di calcolo (es. con MS Excel, oppure Libreoffice) e osservane il contenuto.

Nota: il file contiene le 9 colonne elencate qui sotto. Assicurati di comprendere appieno il tipo di contenuto di ogni colonna. Ad esempio, cosa contiene la colonna E? Che differenza di informazione c'è tra la colonna E e la colonna D? Che cosa contiene la colonna I? Quante interazioni miRNA-Target sono presenti in questo file?

miRTarBase ID

miRNA

Species (miRNA)

Target Gene

Target Gene (Entrez ID)

Species (Target Gene)

Experiments

Support Type

References (PMID)

[v.] Crea un nuovo file "MTI__hsa-miR-122-5p.xlsx"

[vi.] Dal foglio originale denominato "Homo sapiens", seleziona le sole righe che:

riguardano "hsa-miR-122-5p" e
sono dimostrate da solida evidenza sperimentale (cioé a dire, solo interazioni contrassegnate come "Functional MTI" nella colonna H - scartando sia "Non-Functional MTI" che "Functional MTI (weak)").

Nota 1: nello svolgere i prossimi passaggi (e come regola generale per non perdere il proprio lavoro!) salvare continuamente il file, idealmente dopo ogni operazione effettuata. Basta la combinazione di tasti CTRL+S per mettersi al riparo da perdita di lavoro fatto. Esempio se il software si blocca e va riavviato.

Nota 2: ci sono vari modi di riordinare i dati per ottenere quanto richiesto in un foglio di calcolo. I comandi specifici dipenderanno dal software usato (es. Libreoffice vs MS Excel), e dalla versione specifica. Qui di seguito sono delineati un paio di approcci, ma il dettaglio delle combinazioni di tasti e/o voci del menù da usare per implementarli andrà adattato al software usato e alla lingua di uso.

Approccio 1: Ordinare tutte le righe prima per valore decrescente della colonna H, e poi per valore crescente della colonna B; poi selezionare tutte le righe consecutive relative al miRNA hsa-miR-122-5p e copiarle/incollarle nel nuovo file denominato "MTI__hsa-miR-122-5p.xlsx"

Approccio 2: Dal menù in alto, attivare l'opzione autofilter (in Libreoffice: Menù→ Data → Autofilter), che farà apparire dei triangoli accanto al nome di ciascuna colonna, che, se ci si fa click sopra con il mouse, permetteranno di selezionare solo righe con un determinato valore nella data colonna. Poi, fare click sul triangolo della colonna H e, dal menù a tendina che compare, lasciare la spunta solo sul valore "Functional MTI". Poi, fare click sul triangolo della colonna B e, dal menù a tendina che compare, lasciare la spunta solo sul valore "hsa-miR-122-5p". Ora copia/incolla le righe rimaste dopo i filtri applicati nel nuovo file denominato "MTI__hsa-miR-122-5p.xlsx"

Quante sono le interazioni funzionali di hsa-miR-122-5p supportate da solida evidenza sperimentale?

(3) In quali annotazioni funzionali "sono arricchiti" questi geni target di hsa-miR-122-5p?

Per rispondere utilizzaremo il tool online g:Profiler, che offre diverse utili funzionalità per poter correre un'analisi di arricchimento funzionale su una lista di geni di interesse.

[i.] Prima di tutto, dovremo creare una lista unica di geni (eliminando cioé le ridondanze presenti nelle righe delle interazioni validate di hsa-miR-122-5p). Dalla prossima volta vedremo come farlo da riga di comando su un terminale bash. Oggi ci facciamo aiutare da qualche strumento online, ad esempio questo: https://onlinelisttools.com/find-unique-list-items.

apri il web tool online: https://onlinelisttools.com/find-unique-list-items
incolla nel box di sx la nostra lista ridondante di geni
nel box sottostante, assicurati che sia selezionata l'opzione "Delimiter is a Char", poi sotto scrivi "\n" (senza virgolette) come carattere di separazione dei valori. La combinazione \n indica "a capo" in un file di testo.
copia la lista di geni unici che comparirà nel box di dx e incollalo su un nuovo foglio nel file "MTI__hsa-miR-122-5p.xlsx" che hai precedentemente creato

Quanti geni target di hsa-miR-122-5p sono supportati da solida evidenza sperimentale? Questo numero corrisponde al numero di interazioni individuate prima? Perché?

[ii.] Ora corriamo un'analisi di arricchimento funzionale (vedi box sotto) per indiciduare eventuali annotazioni particolarmente ricorrenti nella nostra lista di geni di interesse (geni target del miRNA hsa-miR-122-5p). Per farlo, useremo le funzionalità offerte dal portale g:Profiler. Ma poichè il software che effettua l'analisi di arricchimento funzionale (g:GOst) prende in input una lista di identificativi della banca dati Ensembl, per prima cosa utilizzeremo il tool g:Convert per convertire la nostra lista di identificativi da nomi ufficiali secondo la banca dati HGNC (official gene symbol) a identificativi di geni della banca dati Ensembl.

apri una finestra di browser sul web tool online chiamato g:Profiler
dal menù in alto alla pagina, scegli il tool g:Convert e incolla la lista di geni di interesse (geni target di hsa-miR-122-5p) nel box denominato "Query". (Lascia le opzioni di default nel menù di dx). Poi fai click sul pulsante "Run query"
fai click su "Export to csv" per scaricare il risultato della conversione di identificativi in un file (file di testo con capmi separati da virgole).
importa questo file appena scaricato come nuovo foglio nel file "MTI__hsa-miR-122-5p.xlsx" da te prima creato.
copia in memoria (CTRL+C) i valori della colonna B ("converted alias") da questo nuovo foglio omettendo la prima cella che contiene il titolo della colonna
apri una finestra di browser sul web tool online chiamato g:Profiler (o torna sulla finestra lasciata aperta)
dal menù in alto alla pagina, scegli adesso il tool g:GOst e incolla la lista di identificativi appena copiati (Ensembl gene ID) nel box denominato "Query". (Lascia le opzioni di default nel menù di dx). Poi fai click sul pulsante "Run query"
ora scorri in basso la pagina ed esplora i risultati ottenuti, incluse le informazioni riportate nelle sezioni "Detailed results", "GO context" e "Query Info".

Guardando le righe di risultato fornite nella sezione "Overview", sotto il riassunto grafico dei risultati, quali sono i primi 2 termini GO maggiormente arricchiti tra i target del miRNA "hsa-miR-122-5p"? (Nota: assicurati che i risultati mostrati in questa tabella siano ordinati per ordine crescente della colonna "P_adj (query_1)")

Esempio di output di g:Profiler.

Analisi di arricchimento funzionale

premessa

spesso, il punto di arrivo intermedio di un'analisi bioinformatica è una lista di geni di interesse (es. la lista di geni differenzialmente espressi tra la condizione A e la condizione B)
il passaggio successivo sarà "caratterizzare" questa lista di geni a livello funzionale, scoprire cioé la lista in questione ci suggerisce un qualche processo rilevante per comprendere il fenomeno che stiamo studiando (es. quale - o quali - processo cellulare risulta maggiormente alterato nel cambiamento di stato tra la condizione A e la condizione B?)
per scoprire di quali fenomeni ci parla una certa lista di geni di interesse, si va a valutare cosa sappiamo sulle funzioni che essi svolgono. In particolare, la domanda che ci si pone è: la data lista di geni, è arricchita in qualche annotazione funzionale in particolare?
per valutare eventuali arricchimenti di una specifica funzione, sfruttiamo delle etichette (annotazioni funzionali) di vario tipo. Una caratteristica importante di queste etichette è che adottano un vocabolario controllato, cioé sempre uguale per descrivere le stesse caratteristiche.
esistono diversi vocabolari da poter utilizzare per annotare un gene con etichette che ne riassumano la funzione. I più comuni sono:
- - Gene Ontology (GO): gruppi di etichette (GO terms) raggruppate in 3 grandi domini (MF, BP, CC). Qui una descrizione. Qui per navigarla
  - KEGG Pathways: collezione di pathways e reazioni molecolari curate da esperti. Qui una descrizione.
  - REACTOME Pathways: collezione di pathways e reazioni molecolari curate da esperti. Qui una descrizione.

Nota: la portata inforamtiva (quanto ci raccontano queste etichette?) è diversa. Esempio: i GO terms sono molto diffusi (ogni gene umano ha qualche decina di termini che lo descrivono) ma hanno una portata informativa limitata. Mentre i vocabolari che annotano geni nel contesto di pathways e reazioni (es. KEGG o REACTOME) forniscono una descrizione funzionale di alto livello (ricca di informazione), ma sono pochi i geni per cui è disponibile un simile livello di conoscenza, curata da esperti ( es. meno di 1/3 dei geni è annotato con un pathway nella banca dati KEGG o in quella di REACTOME).

Per individuare segnali biologici, ci serve la statistica (che ci aiuta a stimare la rilevanza di un dato osservato)

Nel caso dell'analisi di arricchimento funzionale, la statistica che usiamo è il TEST IPERGEOMETRICO (o TEST ESATTO DI FISHER) [vedi figura qui sotto].
Si tratta di un test che stima la significatività di associazione (arricchimento) tra una caratteristica presa in esame (es. annotazione funzionale cell cycle) e un determinato campione sulla base della frequenza di osservazione della data caratteristica nel campione in esame rispetto alla sua frequenza nella popolazione di riferimento.
Per poter effettuare questo test statistico, ci servono sempre i seguenti elementi:
- una popolazione di riferimento (N)
- un campione estratto dalla popolazione di riferimento (n)
- una caratteristica da testare (c)
Facciamo un esempio:

La lista di geni target del miRNA hsa-miR-122-5p è arricchita (cioé, sovrarappresentata rispetto all'atteso) nella annotazione funzionale "GO:0019900" (kinase binding)?

n = geni target di hsa-miR-122-5p

N = geni umani

k = geni target di hsa-miR-122-5p annotati con il termine GO:0019900

K = geni umani annotati con il termine GO:0019900

Per procedere al test di arricchimento, dobbiamo definire tutti i numeri qui sopra, di cui per ora conosciamo solo n. Per farlo, svolgi l'attività su BiomaRt che trovi qui sotto.

Una volta calcolati i numeri, la domanda che segue è:

Qual'è la probabilità di osservare k geni annotati con il termine GO:0019900 in una lista di n geni estratti dalla lista completa di N geni del genoma umano, dove la frequenza di geni annotati con il termine GO:0019900 è pari a K?

dove k ha come numero atteso E(k) = nK/N

Attività (tempo: 10')

argomento: BioMart

Esploriamo ora un'altra risorsa molto utile Ensembl BioMArt

Si tratta di un portale che rende possibile effettuare query complesse, ed ottenere tabelle di informazioni (oppure file di sequenze in formato FASTA) relative a tutti i geni di un organismo, oppure ad un set di geni di interesse.

Utilizziamo BioMart insieme per:

1) individuare tutti i geni umani annotati con il termine GO:0019900 (kinase binding)

2) individuare quali geni tra i target di hsa-miR-122-5p sono annotati con il termine GO:0019900 (kinase binding)

---

1) individuare tutti i geni umani annotati con il termine GO:0019900 (kinase binding)

apri una finestra di browser sulla pagina iniziale di Ensembl
dal menù in alto, seleziona la voce BioMart
dal menù a tendina del blocco centrale seleziona la banca dati da usare (Ensembl Genes)

Nota come ad ogni selezione effettuata, la finestra di riaggiorna per attuare la selezione fatta.

poi scegli il set di dati con cui vuoi lavorare (Human Genes)
dal menù a sx in alto, premi il pulsante "Counts" per sapere con quanti geni dell'organismo selezionato stai lavorando.

Nel menù di sx sono anche comparse due voci principali: [Filters] e [Attributes]. Premendo la voce corrispondente (prova) possiamo far comparire nel blocco centrale della pagina una serie di possibilità su cui, rispettivamente, filtrare i geni per quali siamo interessati a ottenere delle informazioni (ad esempio, per limitare il numero geni da tutti ad una specifica sottolista) e definire le informazioni che vogliamo ottenere sui i geni di interesse.

dal menù a sx, premi la voce [Filters] per far comparire nel blocco centrale il relativo menù.

Nota. Le categorie su cui è possibile filtrare la lista di geni di interesse sono raggruppate in 7 gruppi tematici:

REGION:

GENE:

PHENOTYPE:

GENE ONTOLOGY:

MULTI SPECIES COMPARISONS:

PROTEIN DOMAINS AND FAMILIES:

VARIANT:

Poiché siamo interessati a ottenere il nome di tutti i geni umani annotati con il GO term GO:0019900, espandi il gruppo "GENE ONTOLOGY" premendo sul corrispondente simbolo "+"
dalle voci di dettaglio comparse nel blocco centrale, seleziona la voce "GO Term Accession" e scrivi nel riquadro corrispondente il termine di nostro interesse (GO:0019900)
dal menù a sx in alto, premi nuovamente il pulsante "Counts" per aggiornare il numero di geni con cui stai lavorando a seguito della selezione fatta

→ cosa deduci dal nuovo valore di "Counts"? quanti geni umani sono annotati con il termine GO:0019900?

dal menù a sx, premi ora la voce [Attributes] per accedere al relativo menù. Qui definiremo le informazioni da selezionare per i geni di interesse.

NOTA: i gruppi di categorie di attributi tra cui poter scegliere dipendono dal tipo di risultato che si vuole esportare. Di default, il tipo di risultato da esportare sono delle informazioni (Features) relative ai geni di interesse. Ma altre possibili tipologie di risultato sono:

Features (Default)

Structures

Homologues (Max select 6 orthologues)

Variant (Germline)

Variant (Somatic)

Sequences

Poiché siamo interessati a ottenere il nome di tutti i geni umani annotati con il GO term GO:0019900,

[i.] espandi il gruppo "GENE" (che contiene informationi prese dalla banca dati Ensembl) premendo sul corrispondente simbolo "+". Qui ora:

- - deseleziona le voci che riguardano gli identificativi dei trascritti (che trovi selezionate di default), e cioé "Transcript stable ID" e

"Transcript stable ID version"

[ii.] espandi il gruppo "EXTERNAL" (che contiene informationi prese da altre banche dati) premendo sul corrispondente simbolo "+". Qui ora:

seleziona la voce HGNC symbol

Siamo ora pronti per ottenere i risultati. Per farlo, dal menù in alto a sx premi il pulsante "Results". Questo farà comparire un'anteprima delle prime 10 righe di risultato nel blocco centrale della pagina. Mentre nella parte in alto del blocco centrale sono disponibili vari formati di file in cui è possibile scaricare i risultati, oppure si può indicare una mail per riceverli lì.

NOTA IMPORTANTE: la tipologia di interrogazione incrociata di varie banche dati può generare nell'output righe identiche (duplicati). Per evitare che ciò acccada, spuntare sempre l'opzione "Unique results only".

Premere GO per scaricare i risultati selezionati.

NOTA: fai caso come il menù a sx tenga traccia di ogni scelta operata. Si può anche copiare e incollare come documentazione dei filtri applicati/attributi scelti. Così da poterli riprodurre facilmente.

---

2) individuare quali geni tra i target di hsa-miR-122-5p sono annotati con il termine GO:0019900 (kinase binding)

Ora mettiti alla prova!

Ripercorrendo i passaggi visti sopra, estrai ora i geni tra i target di hsa-miR-122-5p sono annotati con il termine GO:0019900 (kinase binding). Per meglio orienntarti nell'esercizio, considera che rimangono invariati i criteri di filtro e di selezione di attributi operati nell'esercizio precedente. Dovrai solo aggiungere un ulteriore criterio di filtro per limitare le informazioni richieste ai soli geni target di hsa-miR-133-5p (il cui elenco hai ottenuto in un precedente esercizio).

Suggerimento: nella sezione [Filters] espandi il gruppo "GENE" per fornire la lista dei geni target del miRNA hsa-miR-133-5p e usarla come criterio per limitare i geni di interesse.

Epigenetica

Uso selettivo dell'informazione genomica (modulazione dell'accessibilità di intere regioni genomiche ottenuta mediante modifiche agli istoni e/o metilazione del DNA al fine di rendere la struttura 3D di quella regione più o meno compatta) permette di avere centinaia di tipi cellulari diversi nel nostro organismo, con forme e funzioni anche molto diverse, seppure a partire dallo stesso genoma.

La stessa informazione, centinaia di tipi cellulari diversi

Approfondimenti utili su alcune risorse viste in questo modulo:

- [video, 15'] What is Ensembl?

- [video, 5'] miRNA Biogenesis & Function

- [Pagine di documentazione] Functional enrichment analysis

- [Pagine di documentazione] Welcome to g:Profiler

- [Pagine di documentazione] How to use BiomaRt

Page updated

Report abuse