Argomenti di oggi
Analisi di espressione differenziale: scopi e modalità
GEO (Gene Expression Omnibus)
GEO2R
microarrays
Scopo di un'analisi di espressione differenziale
Date 2 o più condizioni di interesse (esempio: tessuto sano vs. tessuto cancerogeno; cellule trattate con dato farmaco vs. cellule non trattate; etc.), si vuole determinare:
Quali geni sono espressi in ciascuna condizione di interesse, e quanto sono espressi?
Quali geni cambiano significativamente il loro livello di espressione tra le condizioni di interesse?
Come saggiare l'espressione genica su scala genomica?
Microarrays
RNA-Seq
Il database Gene Expression Omnibus (GEO) dell'NCBI è un archivio pubblico internazionale che dal 1999, anno della sua creazione, archivia e distribuisce liberamente dati di espressione genica prodotti da tecnologie di microarray o piattaforme di sequenziamento high-throughput, nonché molti altri tipi di set di dati di genomica funzionale, tra cui dati di metilazione del genoma, dati di struttura della cromatina e dati di interazioni genoma-proteina.
La risorsa GEO supporta l'archiviazione di dati conformi alle linee guida dettate dai protocolli MIAME (Minimum Information About a Microarray Experiment) e MINSEQE (Minimum Information About a Next-generation Sequencing Experiment). I dati di GEO sono indicizzati, collegati tra loro e ricercabili per parola chiave.
La pagina di accesso alla collezione di dati di GEO è disponibile all'indirizzo: http://www.ncbi.nlm.nih.gov/gds/
GEO permette di navigare anche i dati di sequenziamento conservati nella banca dati SRA (Sequence Read Archive).
Samples, Platform, and Series are supplied by users, while dataSets are compiled and curated by the GEO staff from the user-submitted data.
Platforms
A Platform record describes the list of elements on the array (e.g., oligonucleotide probesets) or the list of elements that may be detected and quantified in that experiment. Each Platform record is assigned a unique and stable GEO accession number (GPLxxx). A Platform may reference many Samples that have been submitted by multiple submitters.
Samples
A Sample record describes the conditions under which an individual Sample was handled, the manipulations it underwent, and the abundance measurement of each element derived from it. Each Sample record is assigned a unique and stable GEO accession number (GSMxxx). A Sample entity must reference only one Platform and may be included in multiple Series.
Series
A Series record defines a set of related Samples considered to be part of a group, how the Samples are related, and if and how they are ordered. Each Series record is assigned a unique and stable GEO accession number (GSExxx).
Datasets
GEO DataSets (GDSxxx) are curated sets of GEO Sample data.
Attività: Scarica dati di espressione (Series Matrix File) da GEO.
Segui i passaggi elencati qui di seguito per scaricare i file della matrice di serie per la serie di dati GEO GSE14834.
apri una finestra di browser sulla pagina principale di GEO (https://www.ncbi.nlm.nih.gov/geo/)
digita GSE14834 nella barra di ricerca
scorri lentamente la pagina di visualizzazione della Serie GEO GSE14834. Prendi il tempo necessario per esplorare le diverse sezioni che compongono la pagina (informazioni generali, piattaforme, campioni, download dei dati).
Segui i link alle piattaforme elencate, segui il link relativo a uno o due campioni nella serie di dati: nota ad esempio il diverso contenuto della pagina dei dettagli del campione rispetto alla pagina dei dettagli della piattaforma.
Rispondi alle seguenti domande:
Qual è la differenza tra gli identificatori di campioni, piattaforma e serie? Qual è il loro rapporto?
Qual è la relazione tra la tabella visualizzata nella pagina dei dettagli di GPL570 e quella visualizzata nella pagina dei dettagli del campione GSM371757, della serie di dati GSE14834?
Che tipo di dati sono inclusi nella serie di dati GSE14834?
raggiungi la sezione di download dei dati in fondo alla pagina di visualizzazione del dataset GSE14834 (è la sezione denominata "Download family"). Si noti che la stessa serie di dati è disponibile in più formati per il download.
tra i formati di dati disponibili, scegli "Series Matrix File(s)".
dalla pagina di download che si aprirà, copia il link per scaricare il file compresso "GSE14834-GPL8191_series_matrix.txt.gz". Quale formato di file ti aspetti? Su che basi la tua ipotesi?
apri una finestra di terminale bash sul computer
crea una cartella sul tuo PC (dove vuoi tu) chiamata "tutorial_geo_gse14834"
scarica il file "GSE14834-GPL8191_series_matrix.txt.gz" (prova a scaricarlo dalla riga di comando bash utilizzando il comando wget [utenti Ubuntu] o il comando curl [utenti MAC OS]. In alternativa, è possibile scaricare manualmente il file dalla pagina web e salvarlo dove si desidera).
sposta la cartella compressa appena scaricata nella cartella chiamata "tutorial_geo_gse14834" che avevi appena creato (riesci a afarlo da terminale bash?)
decomprimere il file dalla riga di comando. Quale comando bash utilizzerete per farlo?
esplora il file dalla riga di comando utilizzando i comandi bash che abbiamo imparato finora (ls, wc, less, head, tail). Quanto pesa il file? Quante righe contiene? Quante righe vi sareste aspettati (e perché)? Come descrivereste il formato/contenuto del file?
ora, provare a estrarre la tabella dei valori di espressione normalizzati che è inclusa nel file. Ecco un paio di vie alternative:
(1.) [Da riga di comando] uggerimento: dalla riga di comando, quando si utilizza il comando grep con l'opzione --line-number, si ottiene il numero di riga in cui si trova un determinato pattern. Provate ad esempio ad eseguire il seguente comando bash:
grep --line-number "\!series_matrix_table_begin" GSE14834-GPL8191_series_matrix.txt
(2.) caricando il file in un foglio di calcolo
GEO2R
Analisi differenziale di dati di espressione di GEO da interfaccia grafica, senza necessità di conoscenze di programmazione
Qui una pagina che illustra in dettaglio come usare lo strumento GEO2R.
GEO2R è uno strumento web interattivo che consente agli utenti di confrontare due o più gruppi di campioni, presi da una serie di dati della banca dati GEO, per identificare eventuali geni differenzialmente espressi tra le condizioni sperimentali di interesse.
I risultati sono presentati come una tabella di geni ordinati in base al P-value del test statistico (t-test, o test t di Student) utilizzato per valutare la significatività di eventuali variazioni del livello medio di espressione di un gene, insieme ad una serie di grafici che aiutano a visualizzare i geni espressi in modo differenziato e a valutare la qualità del set di dati interrogato.
GEO2R utilizza una serie di pacchetti del linguaggio di programmazione R, ed in particolare del progetto Bioconductor. Bioconductor è un progetto di sviluppo e distribuzione di software open-source basato sul linguaggio di programmazione R che fornisce strumenti per l'analisi di dati genomici ottenuto da sequenziamento high-throughput.
Domanda: Quali geni sono differenzialmente espressi tra leucemia linfoblastica acuta di tipo B e di tipo T nel dataset GSE14834?
Il dataset GSE14834 è tra i dataset della banca dati GEO che supporta di condurre un'analisi differenziale online, senza necessità di conoscenze di programmazione, tramite l'interfaccia GEO2R.
Vediamo allora di rispondere a questa domanda utilizzando GEO2R. Per farlo, esegui i passaggi indicati qui sotto:
Apri la pagina della banca dati GEO di NCBI relativa al dataset GSE14834
Scorri la pagina fino a trovare il pulsante "Analyze with GEO2R", poi fai click su questo pulsante
Nella nuova pagina che sia apre, troverai GSE14834 come valore preimpostato per il campo "GEO accession"
Nel campo platform, seleziona dal menù a tendina il corretto valore per analizzare i dati di espressione genica ottenuti con la piattaforma Affymetrix Human Genome U133 Plus 2.0 Array → comparirà una serie di righe che illustrano i campioni presenti in questo set di dati per la piattaforma selezionata
Dal menù in alto, accanto alla voce Samples, fai click sulla voce "Define groups"
Nel menù a tendina che si apre, crea due gruppi chiamati T-ALL e B-ALL (per creare un gruppo, scrivi il nome desiderato e premi invio)
Una volta definiti i due gruppi, seleziona i campioni corrispondenti e poi fai click sul nome del gruppo cui appartengono. Esempio: seleziona (click e trascina il mouse) tutte le 4 righe dei campioni il cui nome (colonna Title) inizia con la parola T-ALL, poi seleziona la voce "T-ALL" dal menù dei gruppi appena definiti per attribuire i campioni selezionati a questo gruppo.
Ora ripeti la stessa operazione (selezione dei campioni e attribuzione al gruppo corretto) per i campioni di B-ALL
Scorri la pagina fino in fondo, esplora il contenuto della voce"Options": qui vedi specificati i parametri adottati per l'analisi statistica che valuterà, per ogni gene, l'eventuale espressione differenziale.
Ora torna sulla voce GEO2R e premi il pulsante Analyze →questo lancerà l'analisi di espressione differenziale (cioé a dire, per ogni probe della piattaforma Affymetrix considerata, verrà effettuato un t-test per stimare se i valori di espressione medi della data probe nel gruppo di campioni di T-ALL differisce significativamente o meno dalla media di espressione nel gruppo di campioni di B-ALL).
Al termine del processamento dei dati, compariranno una serie di grafici (→diagnostici dei campioni analizzati e riassuntivi dei risultati dell'analisi di espressione differenziale) insieme ad una tabella di dettaglio dei risultati del t-test.
Tra i plot generati, il venn diagramm riassume il numero di probes (→ geni) che sono risultati differenzialmente espressi nell'analisi fatta (cioé, che hanno ottenunto nel t-test un p-value - sia grezzo che aggiustato per test multipli - minori della soglia fissata per determinare i risultati significativi: p-value aggiustato <- 0.05). → Quante sono le probes differenzialmente espresse tra T-ALL e B-ALL?
Scarica la lista dei risultati del test relativa alle probes differenzialmente espresse. Per farlo:
torna sul plot Venn Diagram
premi il tasto: Explore and Download
seleziona il confronto tra campioni per cui si vogliono scaricare i risultati (qui ne abbiamo solo uno: T-ALL vs B-ALL)
infine, premi il tasto "Download significant genes"→verrà salvato sul tuo PC un file di testo separato da tabulazioni
Apri il file appena scaricato in un foglio di calcolo, poi prova a rispondere alle seguenti domande:
Che relazione c'è tra geni e probes?
Tutte le probes corrispondono ad un gene umano?
Quante colonne contiene questa tabella dei risultati? Sapresti descrivere / ti è chiaro il contenuto di tutte le colonne?
Usa ora la voce "Prophile graph" dal menù principale dell'analisi per generare un barplot dei valori di espressione della probe risultata più significativa all'analisi di espressione differenziale. GUardando il plot generato, prova a rispondere alle seguenti domande:
Perché questa probe è risultata differenzialmente espressa?
Questa probe risulta up- o down-regolata in pazienti di B-ALL rispetto ai pazienti di T-ALL?
Infine, dai uno sguardo al contenuto della voce del menù "R script": qui trovi la collezione di comandi testuali (script), scritti nel linguaggio di programmazione R, che esegue in modalità testuale la stessa analisi da te fatta in modalità grafica ed interattiva. Potresti, volendo, scaricare ed eseguire sul tuo PC, da un terminale R, la stessa analisi.
ti viene in mente un vantaggio dell'esecuzione dell'analisi in modalità grafica ed interattiva rispetto alla modalità testuale (da terminale R)?
ti viene in mente un vantaggio dell'esecuzione dell'analisi in modalità testuale (da terminale R) rispetto alla modalità grafica ed interattiva rispetto?
Domanda:
In quali annotazioni funzionali "sono arricchiti" questi geni (o meglio, probes) differenzialmente espressi tra T-ALL e B-ALL?
File dei geni DE disponibile qui
Per rispondere a questa domanda, adatta opportunamente le istruzioni che hai già seguito al punto (3) dell'attività intitolata "TARGET VALIDATI del miRNA hsa-miR-122" del Modulo 1
Microarrays
High-density microarrays
Sviluppo a metà degli anni '90, grazie a:
- disponibilità di tecniche di clonaggio e sequenziamento dei geni
- disponibilità di tecniche di micro-fabbricazione
---
Fino a 500,000 probes/sites in un'area di 1.26 cm2 (Affymetrix microarrays)
---
Tecnologia che permette l'analisi in parallelo dell'espressione di migliaia di geni a sequenza nota stampati in disposizione ordinata su un supporto solido impermeabile (solitamente di vetro, di silicio, di quarzo o a membrana di nylon)
High-density Microarrays: sintesi chimica in situ di piccole sequenze di DNA (oligonucleotidi) a singolo filamento
mediante tecniche miste di fotolitografia e chimica combinatoria
La sintesi sulla matrice avviene in parallelo, con aggiunta consecutiva di nucleotidi A, C, G e T.
Ad ogni passo nel processo di sintesi, catene oligonucleotidiche che richiedono ad esempio A nella posizione successiva vengono deprotetti dalla luce nelle posizioni appropriate da una maschera.
~70 cicli, con 70 maschere diverse, permettono la sintesi completa di un array con migliaia di 25mer.
Schema di analisi standard di dati di microarrays
RNA-sequencing
Figure 1 (from DOI: 10.5772/intechopen.69250). Un tipico flusso di lavoro in un esperimento di RNA-seq. (1) Definizione del disegno sperimentale e degli obiettivi qualitativi e quantitativi. Viene usata come esempio l'espressione genica differenziale tra diverse condizioni; (2) selezione dei campioni, estrazione dell'RNA ed eliminazione dei contaminanti come il DNA genomico; (3) valutazione dell'integrità dell'RNA; (4-6) arricchimento dell'RNA. (4) arricchimento dell'mRNA utilizzando microsfere magnetiche o di cellulosa rivestite con molecole di oligo(dT) o priming di oligo(dT); (5) arricchimento dell'mRNA mediante deplezione dell'rRNA con sonde conservate o deplezione selettiva dell'RNA abbondante (SDRNA); (6) selezione dei piccoli RNA (es. miRNA) basata sulle dimensioni mediante elettroforesi o sulla base dell'estrazione in fase solida; (7-9) sintesi di cDNA a singolo/doppio filamento. (7) sintesi di cDNA seguita da frammentazione; (8) frammentazione di mRNA seguita da sintesi di cDNA; (9) sintesi di cDNA per piccoli RNA senza frammentazione; (10) legatura degli adattatori; (11) quantificazione della concentrazione della libreria in termini di cDNA per microlitro e (12) sequenziamento della libreria con tecnologia NGS.
Ad esempio, potremmo essere interessati a quantificare l'espressione genica. Il protocollo sperimentale, chiamato sequenziamento dell'RNA, RNA-seq, si arricchisce di frammenti di RNA provenienti da geni che codificano proteine. Dopo l'allineamento, possiamo calcolare il profilo di copertura che ci dà un conteggio di reads per base lungo il genoma. Queste informazioni possono essere memorizzate in un file di testo con formati specifici (FastQ) per essere utilizzate in analisi o visualizzazioni successive. Possiamo anche limitarci a contare quante reads si sovrappongono agli esoni di ciascun gene e registrare i conteggi per gene per ulteriori analisi. In questo modo si ottiene essenzialmente una tabella con i nomi dei geni e i conteggi delle reads per i diversi campioni (Immagine e legenda - tradotta - tratte da: Computational Genomics with R).
microarrays vs RNA-seq
RIferimenti utili
[Aticolo metodologico] Batut B, van den Beek M, Doyle MA, Soranzo N. RNA-Seq Data Analysis in Galaxy. Methods Mol Biol. 2021;2284:367-392. doi: 10.1007/978-1-0716-1307-8_20. PMID: 33835453. ---> In questo articolo si trova una esercitazione che utilizza una selezione di strumenti di Galaxy per mostrare passo dopo passo come trovare i geni differenzialmente espressi in un esperimento di RNA-seq, dal caricamento dei dati all'analisi dell'arricchimento funzionale, utilizzando dati sperimentali reali.
[Materiale di esercitazione online, in inglese] "Reference-based RNA-Seq data analysis" https://training.galaxyproject.org/topics/transcriptomics/tutorials/ref-based/tutorial.html
[Tutorial] Introduction to Genomics and Galaxy
[Video in inglese, 19'] A gentle introduction to RNA-Seq
[Video di presentazione dello strumento GEO2R] GEO2R: Analyze GEO Data
[VIdeo in inglese, 7'] Metodo Sanger per il sequenziamento dei DNA
[Video, 5'] Sequenziamento di Seconda Generazione con metodo Illumina
[Video e Documentazione] Sequenziamento di Terza Generazione con metodo Oxford Nanopore