Laboratorio di Biologia Molecolare 2

Scopo dell'esercitazione

L’esercitazione prevede l’individuazione del sito di binding di un fattore di trascrizione a partire dai promotori di un gruppo di geni di Saccharomyces cerevisiae da esso regolati. La lista delle posizioni da analizzare è già stata assegnata via email biomol2.unipd@gmail.com (password …) (files_assegnati_posizioni_cromosomi.xlsx). Ad ogni studente è stato assegnato un diverso gruppo di regioni situate nella regione promotoriale dei geni da essi regolati. L’analisi viene fatta con due diversi programmi al fine di comparare i risultati.

A - Programmi: “Multiple Em for Motif Elicitation” (MEME); “TOMTOM

B - Programmi: “MotifSampler” e “YEASTRACT

La ricerca del sito di binding identificato verrà poi effettuata anche sui promotori dei geni ortologhi presenti in un’altra specie di fungo, Candida glabrata al fine di capire se essi vengono regolati dallo stesso fattore di trascrizione.

La descrizione del fattore di trascrizione individuato in S. cerevisiae tramite Saccharomyces Genome Database (SGD) verrà poi confrontata con la funzione della lista di geni che il fattore regola. La funzione dei geni verrà dedotta utilizzando le categorie funzionali della "Gene Ontology".

I COMANDI UNIX PIU' USATI

Durante l'esercitazione sarà necessario usare dei comandi da shell, ad essa normalmente si accede da "applicazioni-terminal" oppure con la combinazione di tasti “CTRL+ALT+T”.

- Per spostarsi da una directory ad un altra cd percorso ad esempio cd /opt/artemis/

- per visualizzare il contenuto di una directory ls

- per fare riferimento alla vostra home directory usate il carattere "tilde" (solitamente F12 nella tastiera italiana) ~/

QUANDO SALVATE DEI FILES O GENERATE DELLE CARTELLE FATE ATTENZIONE A NON INSERIRE CARATTERI DI SPAZIATURA NEL NOME DEL FILE O DELLE CARTELLE DOVE AVETE SALVATO I RISULTATI!!! I PROBLEMI SPESSO DERIVANO DA CARATTERI CHE SONO ALL'INIZIO O ALLA FINE DEL NOME!

Prima Parte – recupero dei promotori dei geni vicini alle regioni assegnate

Accedere al computer: le utenze hanno prefisso "biomol2_" seguita da un numero da 1 a 70. Usare lo stesso numero presente nel file che è stato assegnato (vedi Files laboratorio - scaricare solamente il file assegnato).

Prima parte:

generare una matrice di peso per il sito di binding di un fattore di trascrizione a partire dalla sequenza dei promotori di S. cerevisiae.

1 - Data la lista di regioni fornita dal docente recuperare le sequenze dei promotori dei geni.

La lista delle regioni da utilizzare è stata caricata nella casella di posta di gmail tramite una mail (cartella - laboratorio_2016-17) avente come subject "Files laboratorio - scaricare solamente il file assegnato".

Recuperare le regioni cromosomiche utilizzando il programma Artemis. Se voleste installarlo sul vostro computer personale usate il link sotto, andate su “download” e scaricate la versione appropriata "unix" o "windows":

http://www.sanger.ac.uk/resources/software/artemis/

Nel computer dell'aula bioinformatica il programma si trova in

/opt/artemis

e per eseguirlo basta aprire una shell e lanciare da riga di comando /opt/artemis/art

Questo software è un browser che serve per visualizzare la sequenza genomica, esso verrà utilizzato sia per recuperare le sequenze che per controllare i risultati che otterrete.

Il software permette di visualizzare un solo cromosoma per volta, i files dei cromosomi di S. cerevisiae sono presenti nella casella di posta Gmail: biomol2.unipd@gmail.com (password …). Il materiale che dovete scaricare è in allegato alle email seguenti (cartella laboratorio_2016-17):

“S. cerevisiae cromosomi 1-6”,

“S. cerevisiae cromosomi 7-11” e

“S. cerevisiae cromosomi 12-16”

contengono i files “.gbk” (genebank format) dei 16 cromosomi da “chr01.gbk” a “chr16.gbk”;

scaricate solamente i cromosomi che vi servono per l'esercitazione, questa informazione potete dedurla dal file con le posizioni genomiche che avete scaricato. Se nel file compaioni solamente "chr01", "chr02" e "chr06" dovete scaricare solamente questi tre cromosomi.

In altre email sono anche presenti i cromosomi di C. glabrata che serviranno in una fase successiva

“Candida glabrata cromosomi A-B-C-D-E-F” e

“Cromosomi Candida glabrata G-H-I-J-K-L-M”

contengono le sequenze formato “.gbk” dei cromosomi di C. glabrata;

Come funziona Artemis?

Una volta "eseguito" il file “art” nella finestra che appare andare su “File” e selezionare “open”. Cercare la cartella dove avete salvato i cromosomi e scegliete il cromosoma relativo al gene che state analizzando (selezionare “no” nel caso chieda se volete visualizzare gli errori). Nel cromosoma di S. cerevisiae i geni che presentano la sigla “YA...” sono sul cromosoma “1” (quello col numero più piccolo), i geni “YB...” sono sul cromosoma “2”, ecc.. Una regola similare vale per C. glabrata in cui però i cromosomi vanno da “A” ad “I” e la lettera sul nome del gene indica a che cromosoma si riferisce (CAGL0M12166g = candida glabrata 0 chr M, numero gene).

Per effettuare la ricerca di una sequenza a partire dalle coordinate si va su “select”e quindi su “base range” inserendo i valori così: prima coordinata..seconda coordinata (esempio "12500..12700" oppure "12500 12700")

Invece per effettuare la ricerca di un gene a partire dal suo codice (locus_tag) fare click su “Goto” e poi su “navigator”, quindi inserire il codice (i.e. YHR162W, CAGL0M12166g) su “Goto feature with gene name” e premere “goto”. Il programma vi porterà sulla posizione del cromosoma richiesta.

Per ottenere la sequenza da analizzare del promotore fare lick col pulsante destro sull’area gialla selezionata e quindi “view” poi “bases of selection as fasta”. Selezionare quindi tutta la sequenza, copiarla (ctrl+C) e incollarla (ctrl+V) su un file vuoto usando l’editor di testo e salvare in formato FASTA con il > e il nome del gene di cui avete recuperato il promotore. Quando si seleziona la regione essa è sempre sul filamento "forward" se le coordinate sono inserite dalla posizione più piccola alla più grande (es. "12500..12700"), mentre sono sul filamento "reverse" se le coordinate sono inserite dalla più grande alla più piccola (es. "12500..12700"). E' anche possibile selezionare col mouse la regione di interesse (facendo attenzione allo “strand”) e quindi copiarla e incollarla come descritto sopra.

Dopo aver individuato la regione da analizzare è importante annotare qual è il putativo gene regolato (es. APA12 nella figura ma è meglio usare il codice es. YCL050C). In genere il gene regolato è evidente ma si possono presentare diversi casi:

- se non ci sono geni vicini ad una delle regioni che vi sono state assegnate si può passare alla successiva,

- se ci sono due geni egualmente distanti che divergono (promotore bidirezionale), annotare i nomi di entrambi i geni,

- se ci sono altri elementi del genoma (tRNA, ncRNA, LTR ecc) ignorare la regione,

- se la regione cade nel mezzo di un gene tralasciarla.

IMMAGINE DI UNA PORZIONE DI CROMOSOMA VISUALIZZATO CON ARTEMIS

Le regioni identificate vanno copiate su un file usando un editor di testo come "gedit", attenzione l’estenzione del file può essere “.txt” o “.fasta” è del tutto irrilevante, con formato fasta si fa riferimento al modo in cui le sequenze sono scritte nel file. Non lasciare righe vuote tra una sequenza e l'altra, non inserire spazi vuoti nella riga del nome del gene e SOPRATTUTTO non inserire spazi nel nome che si assegna al file!!

Esempio della lista di sequenze da creare in formato multifasta:

>YAL054C

TGTTGACATGCCGTGGCAAATGATTGGGGTCATCCTTTTTTTCTGTTATC

>YAL053W

TCTTGATATCATTCTGGACGTATGTGCACATGTGATTTGCTTTTGTTTTT

>YAL043C

AGGTATCGAAATATGGCAACTTTTCACTTTTAGATCAAGTCACTATATAC

Di quanti geni siete riusciti ad identificare il promotore?

Nel contempo si consiglia di generare anche un file di testo contenente solamente i nomi dei geni (senza la sequenza recuperata). Questo file vi sarà utile in seguito nella terza parte "sezione 3a".

Seconda parte

MATRICI DI PESO E SEQUENCE LOGO

2a- Ricercare le parole conservate (potenziali siti di binding) per ognuna delle sequenze promotoriali ottenute al punto precedente ed individuare il potenziale fattore di trascrizione - programmi MEME e TOMTOM

Per usare MEME andare sul sito: http://meme-suite.org/tools/meme oppure su http://alternate.meme-suite.org/tools/meme Inserire la vostra email (opzionale), non è necessario indicare l’organismo di riferimento.

Selezionare la ricerca di un solo sito regolatore per sequenza (one per sequence) oppure (zero or one per sequence), selezionando la lunghezza in basi (bp) a quella indicata nel nome del file fornitovi dal docente (file1_XXXbp) e il numero di siti potenziali (Maximum number of motifs to find "3") da identificare.

Attenzione non inserire il numero minimo/massimo di siti possibili e nemmeno un numero di basi superiore a 60000. Un esempio dei parametri da settare è indicato nella schermata sottostante.

IMMAGINE SCHERMATA ANALISI SOFTWARE "MEME"

La matrice di peso è molto importante perchè consente di descrivere il sito di binding di un fattore di trascrizione. In alcuni organismi molto studiati per via informatica è possibile capire qual è il fattore di trascrizione che lega quel sito di binding (non sempre è detto che esso sia noto). Questa matrice consente anche di cercare la presenza di siti di binding in una sequenza di DNA che si vuol analizzare.

Controllate con attenzione: l'E-value che avete ottenuto per i diversi siti di binding individuati da MEME; il numero di siti individuati; la posizione dei siti individuati nella regione analizzata (Motif Locations). Il sito dovrebbe in genere trovarsi in vicinanza della posizione centrale di ogni regione.

Scaricate il sequence logo in modo da poterlo inserire nella relazione.

ATTENZIONE! Non è necessariamente detto che il risultato sia un solo sito di binding, potrebbero essere individuati due siti di due fattori di trascrizione che tendono a cooperare nella regolazione genica e quindi che tendono a co-localizzarsi nelle stesse regioni genomiche.

A partire dall’output di MEME utilizzare il software TOMTOM (utilizzate "submit/download, la freccetta a destra ->) per verificare quale potrebbe essere il probabile fattore di trascrizione che lega questo sito. Identificare il fattore di trascrizione in esame a partire dalle sequenze di basi (motif) ottenute dalle predizioni. Come database utilizzate "CIS-BP Single species DNA" e nella casella successiva selezionate "Saccharomyces cerevisiae" (oppure potete usare "Yeast Saccharomyces cerevisiae DNA", "Yeastract"). Una volta identificato, recuperarne il codice (che dovrebbe essere una sigla del tipo YAL041W oppure S000000039). Ripetere l'analisi per i tre motivi che il programma TOMTOM vi ha restituito annotando i risultati ed i relativi p-value.

Dal risultato controllate con attenzione: il p-value dei vari risultati ottenuti; il nome del fattore di trascrizione e (se presente) la sequenza di binding ricava in studi precedenti. Nella relazione è gradita una discussione ragionata del risultato.

IMMAGINE SCHERMATA ANALISI SOFTWARE "TOMTOM"

immagine_tomtom

2b- Ricercare le parole conservate (potenziali siti di binding) per ognuna delle sequenze promotoriali ottenute al punto precedente ed individuare il potenziale fattore di trascrizione - programmi MotifSampler ed YEASTRACT

Lo scopo di questa seconda parte è di verificare il risultato ottenuto tramite MEME e TOMTOM utilizzando dei software differenti (MotifSampler e YESTRACT).

Il programma “MotifSampler” è già installato sul computer che state usando, funziona in locale da riga di comando e serve per generare la matrice/i di peso del sito/i in esame.

Questo programma (come anche i software MotifScanner, MotifLocator e CreateBackgroundModel) sono all'interno della cartella /opt/bin e sono eseguibili scrivendo il solo nome del programma nella shell.

Se voleste installarli nel vostro computer, dal sito http://homes.esat.kuleuven.be/~sistawww/bioi/thijs/download.html scaricare il programma (Versione compatibile col vostro sistema operativo).

Aprire una shell (applicazioni-terminal) oppure con la combinazione di tasti “CTRL+ALT+T”.

IMPORTANTE! Ricordate che potete eseguire i programmi da shell in due modi:

1 - "spostandovi" nella cartella che contiene il programma con il comando "cd" (change directory) e quindi eseguire il programma direttamente. In questo caso dovrete indicare al programma il percorso corretto per i files di input e di output.

2 - eseguire il programma da un'altra "posizione", in questo caso prima del nome del programma è necessario indicare il percorso in cui esso si trova (opt/bin/MotifSampler).

1 - Digitare sulla shell

cd “percorso al programma”

cd significa change directory, questo comando deve essere seguito dal percorso corretto in cui il file si trova.

Accertatevi di essere nella cartella corretta e quindi digitate

./MotifSampler

Accertatevi di essere nella cartella corretta per poter eseguire il programma, se ciò accade il comando dovrebbe restituirvi una serie di parametri necessari all'utilizzo del software.

Usage: MotifSampler <ARGS>

Required Arguments

-f <fastaFile> Sequences in FASTA format

Prestate attenzione al fatto che dovete comunicare al software dove si trovano i files di input (ad es. il fasta file ed il file "background model description"). Questo viene fatto indicando il percorso corretto al file di input a meno che esso non si trovi nella cartella dove si trova anche il programma. Il percorso in genere viene indicato anche per il file di output se volete salvarlo in una cartella specifica (MOLTO IMPORTANTE).

-b <bgFile> File containing the background model description

Questo file deve essere scaricato da Gmail dalle mail "Background model S. cerevisiae per MotifSampler" e "Background model Candida glabrata"

Optional Arguments

-s <0|1> Select strand. (default both) 0 is only input sequences, 1 include reverse complement.

Selezionare entrambi gli strand

-p <value> Sets prior probability of 1 motif copy. (default 0.5).

-M <value> Maximal number of motif instances per sequence. (default unset = 0)

-n <value> Sets number of different motifs to search for (default 1).

Ricercare 3 motivi oppure ripetere la ricerca aggiustando i paramteri a seconda del caso.

-w <value> Sets length of the motif (default 8).

Utilizzare la lunghezza riportata nel nome del file che vi è stato assegnato.

-x <value> Sets allowed overlap between different motifs. (default 1)

-r <runs> Set number of times the MotifSampler should be repeated (default = 1).

Output formatting Arguments

-o <outFile> Output file to write results (default stdout).

-m <matrixFile> Output file to write retrieved motif models.

Esempio di procedura in Windows:

Aprire una shell e posizionarsi (usando il comando cd) nella directory dove si è salvato il programma, fornire il comando:

> MotifSampler.exe -f C:\Users\stef\BiologiaMolecolare2_2011\laboratorio\sequenze.fasta -b C:\Users\stef\BiologiaMolecolare2_2011\laboratorio\Scerevisiae_bkgrmod -n 3 -w 12 -o siti_identificati.txt -m file_matrici_generate

ATTENZIONE: I PERCORSI AI FILES INDICATI SOPRA SONO PURAMENTE RAPPRESENTATIVI!! USATE IL PERCORSO RELATIVO AI FILES CHE AVETE SALVATO!!!

CONTROLLATE DI NON AVERE INSERITO CARATTERI DI SPAZIATURA NEL NOME DEL FILE O DELLE CARTELLE DOVE AVETE SALVATO I RISULTATI!!!

Esempio di procedura in Linux:

Aprire una shell e posizionarsi nella cartella dove si è salvato il programma (usando "cd"), inserire il comando:

./MotifSampler -f /home/stefano/yeast_project/sequenze.fasta -b /home/stefano/yeast_project/prova_background -n 3 -w 12 -m file_matrici_generate.txt -o siti_identificati.txt

ATTENZIONE: I PERCORSI AI FILES INDICATI SOPRA SONO PURAMENTE RAPPRESENTATIVI!! USATE IL PERCORSO RELATIVO AI FILES CHE AVETE SALVATO!!! INOLTRE FATE ATTENZIONE AI SIMBOLI "-" PRIMA DELLE OPZIONI COME -f -b, controllate bene di inserire dei segni "-" "meno" e non altri simboli simili.

Nel file “-m file_matrici_generate” è contenuto il file con le tre differenti matrici di peso generate;

nel file “-o siti_identificati.txt” invece sono presenti i siti in cui sono stati identificati nei promotori forniti le differenti sequenze di binding.

Nell’esempio in questione il sito corretto era il secondo risultato utile.

Occorre ora isolare il risultato corretto (la matrice) dal file “file_matrici_generate” mantenendo la struttura corretta ma solamente la matrice del sito desiderato.

Sotto si riporta un esempio della struttura della matrice, nel database yeastract comunque si utilizzerà la sequenza del motivo di binding identificato indicato in giallo:

#INCLUSive Motif Model

#

#ID = box_1_2_CGTwmwTwryGA

#Score = 28.1078

#W = 12

#Consensus = CGTwmwTwryGA

0.0117803 0.848986 0.00724741 0.131986

0.132027 0.00725863 0.848975 0.0117391

0.132027 0.127505 0.00724741 0.73322

0.372521 0.00725863 0.00724741 0.612973

0.492768 0.367999 0.127494 0.0117391

0.613014 0.00725863 0.00724741 0.37248

0.132027 0.00725863 0.00724741 0.853467

0.372521 0.247752 0.00724741 0.37248

0.372521 0.00725863 0.488235 0.131986

0.132027 0.367999 0.00724741 0.492726

0.0117803 0.00725863 0.969222 0.0117391

0.733261 0.247752 0.00724741 0.0117391

A questo punto è possibile identificare il fattore di trascrizione in esame a partire dalla sequenza di basi ottenuta dalle predizioni usando il database YEASTRACT (http://www.yeastract.com/formtfsbindingsites.php) a partire dai risultati ottenuti con MotifSampler (es. CGTWMWTWRYGA).

Potete anche analizzare con attenzione la matrice ottenuta per comprendere meglio la sequenza dei possibili siti di binding usando il codice IUPAC.

Seguire l’esempio sotto riportato:

IMMAGINE TRATTA DAL DATABASE YEASTRACT

Cliccare su “Search by DNA motif” (cerchiata in rosso nell'immagine) e sulla finestra che compare inserire la sequenza del/dei sito/i identificati da MotifSampler nella casella in basso a destra (DNAmotif) consentendo zero, una o due sostituzioni (Substitutions) (se necessario provare a modificare i parametri finchè non ottenete un risultato che vi sembra sensato). In linea teorica il risultato dovrebbe essere lo stesso di quello ottenuto con MEME e TOMTOM ma molto spesso risulta differente. Il risultato può essere utile per validare uno dei risultati ottenuti coi precedenti programmi, nel caso sia molto diverso utilizzate il risultato di MEME e TOMTOM.

PROCEDURA ALTERNATIVA. Se la produra di TOMTOM vi risulta più semplice, aprite una finestra nel browser in corrispondenza del sito (http://meme-suite.org//tools/tomtom) e ripetete l'analisi che avevate effettuato precedentemente. Questa volta su "enter motifs" dovete però usare la matrice di peso che incollerete nella finestra selezionando "type in motifs".

COSA FARE NEL CASO IL RISULTATO DISCUSSO COL DOCENTE SIA INSODDISFACENTE...

In un piccolo numero di casi il risultato ottenuto può essere poco soddisfacente, ad esempio il p-value non indica un risultato significativo, oppure il sito di binding è presente solamente in una frazione ridotta delle regioni indagate. In questo caso seguire questa procedura alternativa...

Descrivete la sequenza ottenuta coi software Meme e MotifSampler per i siti identificati aventi la lunghezza indicata (non più di 3 sequenze). Riportare i “redundant motifs found” i sequence logo dal/dai risultato/i ottenuto (riportare l’immagine, non più di 3 siti). Confrontare i risultati ottenuti con i diversi software. Quale fattore di trascrizione (se ne avete identificato uno) ha la maggiore probabilità di essere effettivamente quello che lega il sito di binding identificato? E’ stato possibile identificare il fattore con entrambi i software?

2c - Recuperare la funzione del fattore di trascrizione identificato.

Una volta identificato tramite TOMTOM e YEASTRACT un fattore di trascrizione che lega il sito di binding, recuperarne la funzione dal Saccharomyces Genome Database utilizzando il codice del gene che lo codifica (ad esempio YAL041W oppure S000000039) o il nome del fattore di trascrizione. Inserire il codice nella casella "search" in alto a destra. Poi recuperare una breve descrizione della funzione tratta dal campo “description”.

Terza Parte

3a - Data la lista di geni di S. cerevisiae di cui avete recuperato il promotore al punto 1 ricercare i corrispondenti geni ortologhi in un altro organismo, Candida glabrata.

Andare sul database YeastMine (http://yeastmine.yeastgenome.org/yeastmine/begin.do) per recuperare le sequenze proteiche relative ai geni di S. cerevisiae della lista iniziale. Sulla sezione “analyse” inserire la lista dei nomi delle proteine da recuperare.

Esempio:

YAL053W

YAL043C

YAL041W

...

Premere il pulsante “analyze” e poi “save a list of … genes” assegnando un nome alla query "choose a name for the list".

NB Se lo desiderate potete a questo punto anticipare l'analisi richiesta nel punto 4a, il risultato è già presente nella finestra di analisi che avete ottenuto dopo aver inserito i nomi dei geni, in BASSO!

Aggiungere alla tabella che si è ottenuta la sequenza proteica cliccando su “manage columns” “add a column” quindi andare su “proteins” poi su “sequence” ed infine su “residues”; a questo punto quindi cliccare su “apply”.

Alla tabella ora è stata aggiunta anche la sequenza proteica.

Cliccare su "export" "download" -> potete anche decidere che colonne mantenere nell'output.

Da questo file generare un file multifasta con le sequenze proteiche come nell’esempio in sezione 1, ma in questo caso con le sequenze delle proteine ed i nomi delle proteine ad esse associati.

Il file dovrebbe risultare come sotto:

>YAL041W

MAIQTRFASGTSLSDLKPKPSATSISIPMQNVMNKPVTEQDSLFHICANIRKRLEVLPQLKPFLQLAYQSSEVLSERQSLLLSQKQHQELLKSNGANRDSSDLAPTLRSSSISTATSLMSMEGISYTNSNPSATPNMEDTLLTFSMGILPITMDCDPVTQLSQLFQQGAPLCILFNSVKPQFKLPVIASDDLKVCKKSIYDFILGCKKHFAFNDEELFTISDVFANSTSQLVKVLEVVETLMNSSPTIFPSKSKTQQIMNAENQHRHQPQQSSKKHNEYVKIIKEFVATERKYVHDLEILDKYRQQLLDSNLITSEELYMLFPNLGDAIDFQRRFLISLEINALVEPSKQRIGALFMHSKHFFKLYEPWSIGQNAAIEFLSSTLHKMRVDESQRFIINNKLELQSFLYKPVQRLCRYPLLVKELLAESSDDNNTKELEAALDISKNIARSINENQRRTENHQVVKKLYGRVVNWKGYRISKFGELLYFDKVFISTTNSSSEPEREFEVYLFEKIIILFSEVVTKKSASSLILKKKSSTSASISASNITDNNGSPHHSYHKRHSNSSSSNNIHLSSSSAAAIIHSSTNSSDNNSNNSSSSSLFKLSANEPKLDLRGRIMIMNLNQIIPQNNRSLNITWESIKEQGNFLLKFKNEETRDNWSSCLQQLIHDLKNEQFKARHHSSTSTTSSTAKSSSMMSPTTTMNTPNHHNSRQTHDSMASFSSSHMKRVSDVLPKRRTTSSSFESEIKSISENFKNSIPESSILFRISYNNNSNNTSSSEIFTLLVEKVWNFDDLIMAINSKISNTHNNNISPITKIKYQDEDGDFVVLGSDEDWNVAKEMLAENNEKFLNIRLY*

>YAL043C

MSSAEMEQLLQAKTLAMHNNPTEMLPKVLETTASMYHNGNLSKLKLPLAKFFTQLVLDVVSMDSPIANTERPFIAAQYLPLLLAMAQSTADVLVYKNIVLIMCASYPLVLDLVAKTSNQEMFDQLCMLKKFVLSHWRTAYPLRATVDDETDVEQWLAQIDQNIGVKLATIKFISEVVLSQTKSPSGNEINSSTIPDNHPVLNKPALESEAKRLLDMLLNYLIEEQYMVSSVFIGIINSLSFVIKRRPQTTIRILSGLLRFNVDAKFPLEGKSDLNYKLSKRFVERAYKNFVQFGLKNQIITKSLSSGSGSSIYSKLTKISQTLHVIGEETKSKGILNFDPSKGNSKKTLSRQDKLKYISLWKRQLSALLSTLGVSTKTPTPVSAPATGSSTENMLDQLKILQKYTLNKASHQGNTFFNNSPKPISNTYSSVYSLMNSSNSNQDVTQLPNDILIKLSTEAILQMDSTKLITGLSIVASRYTDLMNTYINSVPSSSSSKRKSDDDDDGNDNEEVGNDGPTANSKKIKMETEPLAEEPEEPEDDDRMQKMLQEEESAQEISGDANKSTSAIKEIAPPFEPDSLTQDEKLKYLSKLTKKLFELSGRQDTTRAKSSSSSSILLDDDDSSSWLHVLIRLVTRGIEAQEASDLIREELLGFFIQDFEQRVSLIIEWLNEEWFFQTSLHQDPSNYKKWSLRVLESLGPFLENKHRRFFIRLMSELPSLQSDHLEALKPICLDPARSSLGFQTLKFLIMFRPPVQDTVRDLLHQLKQEDEGLHKQCDSLLDRLK*

>YAL053W

MIFLNTFARCLLTCFVLCSGTARSSDTNDTTPASAKHLQTTSLLTCMDNSQLTASFFDVKFYPDNNTVIFDIDATTTLNGNVTVKAELLTYGLKVLDKTFDLCSLGQVSLCPLSAGRIDVMSTQVIESSITKQFPGIAYTIPDLDAQVRVVAYAQNDTEFETPLACVQAILSNGKTVQTKYAAWPIAAISGVGVLTSGFVSVIGYSATAAHIASNSISLFIYFQNLAITAMMGVSRVPPIAAAWTQNFQWSMGIINTNFMQKIFDWYVQATNGVSNVVVANKDVLSISVQKRAISMASSSDYNFDTILDDSNLYTTSEKDPSNYSAKILVLRGIERVAYLANIELSNFFLTGIVFFLFFLFVVVVSLIFFKALLEVLTRARILKETSNFFQYRKNWGSIIKGTLFRLSIIAFPQVSLLAIWEFTQVNSPAIVVDAVVILLIITGLLVYGTIRVFIKGRESLRLYKNPAYLLYSDTYFLNKFGFLYVQFKADKFWWLLPLLSYAFLRSLFVAVLQNQGKAQAMIIFVIELAYFVCLCWIRPYLDKRTNVFNIAIHLVNLINAFFFLFFSNLFKQPAVVSSVMAVILFVLNAVFALFLLLFTIVTCTLALLHRNPDVRYQPMKDDRVSFIPKIQNDFDGKNKNDSELFELRKAVMDTNENEEEKMFRDDTFGKNLNANTNTARLFDDETSSSSFKQNSSPFDASEVTEQPVQPTSAVMGTGGSFLSPQYQRASSASRTNLAPNNTSTSSLMKPESSLYLGNSNKSYSHFNNNGSNENARNNNPYL*

Eseguire la stessa procedura da capo con l'ID del fattore di trascrizione e salvare su un file a parte la sequenza proteica del fattore di trascrizione che avete individuato.

3b - Tramite BLAST identificare i migliori best hits delle proteine recuperate prima allineandole contro quelle del secondo organismo.

Per velocizzare la ricerca effettuare un BLASTp contemporaneamente su tutte le sequenze proteiche salvate nel file multifasta contro tutte le proteine della specie di interesse http://www.ncbi.nlm.nih.gov/projects/mapview/

ESECUZIONE MULTIBLAST

Cliccare sul pulsante “B” come in figura. Poi fare attenzione a selezionare “BLASTp”, caricare il file multifasta con “upload file” (sfoglia) e assegnare un nome alla ricerca di similarità “job title”.

Premere “BLAST”.

ATTENZIONE! Quando si apre la schermata con i risultati del blast essi non sono tutti sulla stessa pagina, infatti in alto a sinistra trovate un menu a tendina (Results for) con cui potete spostarvi da un risultato all'altro selezionando una proteina alla volta!!!!

blast_cglabrata

Considerare solamente gli allineamenti aventi una lunghezza pari ad almeno il 70% della sequenza originale (valore approssimativo, non siate fiscali) e un numero di posizioni identiche di almeno il 30% (valore approssimativo, non siate fiscali).

Se sono presenti allineamenti multipli, privilegiare il miglior risultato (cioè il primo, il best match).

Dal risultato del BLAST premere sul link che riporta il “gene ID” (es. GENE ID: 2891257) e segnarsi il codice del gene (locus_tag: CAGL0M11968g). In questo caso il cromosoma su cui è codificato il gene è “M” ed indicato nel "locus_tag" del gene (CAGL0M11968g).

ATTENZIONE! Eseguite la stessa procedura di blastp usando la sequenza del fattore di trascrizione individuato su S. cerevisiae e verificate se è presente o assente su C.glabrata. Ricordate che in alternativa è possibile recuperare l'ortologo dal sito YeastMine come descritto 3a. Nella parte bassa della pagina di YeastMine c'è una sezione "Orthologues" che riporta gli ortologhi su altri organismi compresa C. glabrata (selezionare l'organismo corretto e cliccare su "view results").

Di quanti geni siete riusciti ad identificare l’ortologo nel secondo organismo? Nel caso abbiate identificato un numero di ortologhi inferiore all’atteso provate a motivate il risultato.

3c - Identificare per ogni gene ortologo trovato in C. glabrata le posizioni del promotore corrispondente e scaricare le sequenze in formato fasta.

Per recuperare il promotore del gene utilizzare di nuovo Artemis con i files dei cromosomi forniti nella casella di posta e relativi al genoma di C. glabrata.

Per identificare il gene con Artemis andare su "GoTo" e poi su "Navigator" ed inserire il nome del gene su "Go to Feature with gene name". Selezionare il promotore considerando 700 basi a monte del sito di inizio del gene (se il promotore è più piccolo di 700 basi prendere tutto il promotore). Selezionare lo stesso filamento "for" o "rev" del gene. Cliccando col destro sulla regione selezionata recuperare la sequenza nucleotodica come fatto precedentemente in S. cerevisiae.

Attenzione ad utilizzare il cromosoma corretto e a prendere una regione del promotore sufficientemente grande (circa 700 basi a monte del gene).

Ripetere la procedura per tutte le sequenze e salvate tutto su di un file in formato fasta, come avevate fatto prima.

3d- Effettuare nuovamente la ricerca dei siti di binding del fattore di trascrizione sui promotori di C. glabrata e cercare il fattore di trascrizione corrispondente. Utilizzare come fatto in precedenza i software MEME e TOMTOM; MotifSampler e YEASTRACT.

Attenzione, quando ripetete l'analisi con TOMTOM potete modificare il database di ricerca indicando "CIS-bp single species DNA" -> "Candida glabrata" anche se negli anni precedenti erano state mantenute invariate le impostazioni.

Verificare il risultato ottenuto (matrici e sequence logo).

Quanti promotori avete analizzato? Su quanti siete riusciti a trovare almeno un sito di binding (motif)? Che sito/i di binding (motif) erano presenti sui promotori dei geni ortologhi di C. glabrata?

Valutare se i geni di S. cerevisiae e quelli di C. glabrata sembrano essere regolati dallo stesso fattore di trascrizione oppure no. Provate a cercare un possibile spiegazione anche in considerazione del fatto che il fattore di trascrizione regoli dei geni che intervengono in processi cellulari molto conservati evolutivamente (es. ciclo cellulare) oppure no.

Quarta Parte

4a - Analisi della Gene Ontology sui geni di S. cerevisiae controllati dai promotori determinati nella sezione 1a.

Utilizzare YeastMine (http://yeastmine.yeastgenome.org/yeastmine/begin.do) secondo la procedura descritta al punto 3a. Sulla sezione “analyze” inserire la lista dei nomi dei geni da recuperare.

Esempio:

YAL053W

YAL043C

YAL041W

...

Premere il pulsante “analyze” e poi “save a list of … genes” assegnando un nome alla query.per salvare la lista di geni su cui effettuare l’analisi. (Ovviamente qui non vogliamo recuperare le sequenze proteiche come in precedenza ma effettuare un’analisi di Gene Ontology - GO).

"Scendere" nella parte bassa della pagina e dove c'è “Gene Ontology enrichment” settare i seguenti parametri:

Test Correction: "none"; p-value: 0.05; Ontology: "biological_process"

Copiare i valori ottenuti o scaricare la tabella con i geni identificati per ogni classe di GO con i valori statistici (p-value) cliccando sulla casella "GO term" e su "download".

Leggete con attenzione i nomi e le definizioni dei geni che state analizzando, vi saranno molto utili per stilare la relazione finale.

Cercate di comprenderne la funzione sia in base ai risultati della Gene Ontology, sia in base alle loro funzioni che potete ottenere dal Saccharomyces Genome Database al quale venite indirizzati se cliccate sul "systematic name" presente nella tabella. Anche passando col puntatore sopra al nome del gene vengono visualizzate una serie di informazioni utili.

Correlate la funzione dei geni a quella del fattore di trascrizione individuato, in caso fosse più d'uno la funzione vi aiuterà ad identificare quello corretto.

4b - SOLAMENTE NEL CASO IL SOFTWARE YEASTMINE NON FUNZIONI - Ripetere l’analisi di Gene Ontology con il software GoMiner

(http://discover.nci.nih.gov/gominer/GoCommandWebInterface.jsp).

Recuperare la lista iniziale dei geni di S. cerevisiae

e preparare un file di input con la lista dei nomi dei geni da analizzare come da esempio sotto e caricarlo nell’interfaccia. Il file può essere un normale file di testo ".txt".

es.

YAL053W

YAL043C

YAL041W

...

Selezionare i parametri come indicato sotto e lasciare invariati quelli non indicati:

select total file: inserire il percorso al file che contiene tutti i geni di S. cerevisiae scaricabile dalla casella di posta "file totale geni cerevisiae per GOMiner";

select changed file: inserire il percorso al file da analizzare con i nomi dei geni;

select data source -> SGD (S. cerevisiae);

choose organism from list -> S.cerevisiae

chose evidence level from list -> "all"

select statistical constrains for summary report -> p-value (0.05)

smallest category size for category statistics -> 1

selezionare "NO CIM"

select number of randomization -> 50

smallest category size for category statistics -> 1

step 11 (select root category...) -> biological process

inserire l'indirizzo e-mail.

premere "submit query".

Una volta ricevuti i risultati sulla vostra posta elettronica (potrebbe richiedere molto tempo, verificate il giorno dopo la submission se non ricevete risultati) procedere attraverso la serie di link sotto riportati:

  1. Your can also browse your results at http:...

  2. Browsable Results (HTML) cliccare su "Browse Results"

  3. "Nome_file_input.txt.dir/" (attenzione si trova nella sezione Results for Each Changed File

  4. Poi su "Results files - HTML" "Nome_file_input.txt.change.gce.html" "Gene Category Summary (Changed Genes)"

A questo punto si ottiene una tabella con i geni totali e quelli identificati per ogni classe con i valori statistici di arricchimento e altri parametri.

Se non riuscite ad accedere ai risultati in remoto sul sito, scaricate dalla posta il file compresso e "dezippatelo", poi entrate nelle cartelle secondo l'ordine

HighThruputResult1930330145 (il vostro nome sarà simile a questo ma differisce per ogni analisi)

work1930330145 (il vostro nome sarà simile a questo ma differisce per ogni analisi)

NOME-FILE.txt1930330145.dir

NOME-FILE.txt.dir

aprite NOME-FILE.txt.change.html

Se il numero di risultati è molto grande considerate solo quelli con un numero di geni elevato (total genes) ed un elevato valore di "enrichment".

LA SEZIONE 5 NON E' PREVISTA NELL'ANNO ACCADEMICO 2016-17

5 - analisi del sito di binding del ribosoma in un cromosoma batterico

Questa parte del laboratorio verte sulla ricerca dei siti di binding del ribosoma (RBS) su un cromosoma batterico. La procedura è simile a quella effettuata per l’analisi del sito di binding dei fattori di trascrizione, l'idea di base è di scaricare i files relativi ad un cromosoma batterico, estrarre le regioni a monte dei geni in maniera automatica con il programma "Extract_DNA_regions.pl" (presente nella solita casella di posta) ed analizzare i motivi presenti con MEME.

Ad ognuno viene assegnata un'analisi su un genoma completo scelto da sito "http://www.ncbi.nlm.nih.gov/genome/browse/", cliccare su Prokaryotes.

5a - Scaricare dal database ncbi (sito ftp) un cromosoma di un batterio a scelta

Andare su "ftp://ftp.ncbi.nih.gov/genomes/Bacteria/" e cercare il genoma scelto, quindi scaricare i files in formato GenBank (.gbk), fasta (.fna) e (.gff) relativi ad un cromosoma batterico.

Il file ".gbk" serve per il programma artemis per poter visualizzare i geni;

il file ".fna" è la sequenza del cromosoma in formato fasta;

il file ".gff" contiene le posizioni di inizio e fine dei geni in formato tabulare.

Nella cartella ci sono numerosi files, alcuni sono relativi ai plasmidi, quello di dimensione maggiore è quello del cromosoma. Per scaricarli cliccare sul link col tasto destro del mouse e selezionare "save link as".

Fare attenzione e recuperare tutti i files relativi allo stesso cromosoma!!!

5b - Estrarre le regioni a monte dei geni in modo automatico usando il programma "Extract_DNA_regions.pl"

Il programma serve per estrarre la regione a cavallo del sito di inizio della traduzione di tutti i geni, queste regioni servono poi per identificare la regione conservata che costituisce il sito di binding del ribosoma esattamente come è stato fatto per i fattori di trascrizione.

Si consiglia di salvare il programma ed i files (.gbk, .gff, .fna) tutti nella stessa directory.

Tramite il comando "cd" (change directory) posizionarsi nella directory contenente il programma "extract_DNA_regions.pl" ed i files, digitare il nome del programma seguito dal nome del file .gff, dal nome del file con la sequenza del cromosoma, dal nome a scelta del file di output (vedi sotto), la lunghezza della regione da estrarre (30), distanza a monte dell'ATG di inizio (20). I nomi dei files devono essere preceduti dal "percorso" corretto della cartella dove si trovano se programma e files NON sono nella stessa cartella.

perl ./extract_DNA_regions.pl nome_file.gff nome_file_cromosoma.fasta nome_file_output.fasta 30 20

Una volta completata l'estrazione delle regioni, selezionarne un migliaio (per evitare che MEME si blocchi) usando il seguente comando:

head -n 2000 nome_file_output.fasta > nome_file_output_1000.fasta

"head" sta ad indicare che vogliamo la prima parte del file, "-n" è il numero di righe (2000 perchè ogni sequenza occupa due righe), ">" reindirizza l'output del comando su un altro file a cui darete un nome (ad esempio "nome_file_output_1000.fasta").

5c - Analizzare la struttura della regione a monte del gene col programma WEBLOGO

Utilizzare il programma WEBLOGO per un'analisi veloce della regione a monte del sito di inizio della traduzione. Inserire le sequenze estratte col comando head ed eseguire il programma con "create logo". Salvare l'immagine ottenuta.

Se la specie che avete scelto ha un RBS ben conservato tra i vari geni dovreste ottenere un risultato chiaro; sotto son riportati due esempi ottenuti su "Escherichia coli 042" e su "Acetobacter pasteurianus 386B". Il primo è un buon risultato, la sequenza del RBS è ben evidente.

Questa analisi può indirizzarvi meglio nella successiva analisi da effettuare con MEME, ad esempio nella scelta della dimensione del sito e nel risultato che vi potete attendere.

5d - Analizzare le sequenze estratte utilizzando MEME per identificare il RBS

Usate i seguenti parametri,

minimum width -> 6

maximum width -> 6

One per sequence

Maximum number of motifs to find -> 3

IMPORTANTE! IN QUESTO CASO VA SELEZIONATO "Search given strand only"

Dovreste ottenere in output: come primo risultato il sito di inizio della trascrizione e come secondo miglior risultato il RBS.

Scaricare anche in un file di testo il motivo in PSPM format così poi potremo confrontare i risultati tra loro.

Inserire il risultato ottenuto con weblogo, il sequence logo del RBS ottenuto con MEME e la matrice di peso nel documento google

https://docs.google.com/document/d/1dKk_6ccZIxKFDvJYIXMibAiLdUG8hvk84IwALbReSgE/edit

seguendo esattamente lo schema indicato nel documento.

Attenzione che non è possibile incollare direttamente le immagini, usare la funzione "inserisci" "immagine".

FACOLTATIVO!

5e - Generare il modello della composizione in basi del cromosoma batterico col programma CreateBackgroundModel

Serve per generare il “modello” del genoma (o del cromosoma) in esame inteso come la composizione in basi e altri parametri necessari alle analisi successive. Questo passaggio per lievito lo avevamo fatto noi prima e vi erano stati forniti i file già pronti da usare. In rosso sono segnati i parametri che è necessario impostare, in nero quelli che si possono lasciare invariati.

Usage: CreateBackgroundModel <ARGS>

Required Arguments

-f <fastaFile> Sequenza in formato FASTA del cromosoma;

-b <bgFile> Output file in which the background model will be written.

Optional Arguments

-o <value> Order of the background model. Default = 1;

Esempio di procedura in Linux, aprire una shell e posizionarsi nella cartella dove si trova il programma, fornire il comando:

./CreateBackgroundModel -f user/stef/laboratorio/allchrs.fasta -b bacteria_bkgrmod

Come sempre i percorsi da settare dipendono dalla cartella in cui avete salvato i files. Il background model servirà nelle fasi successive delle analisi e descrive il genoma/cromosoma dell’organismo in esame.

5e - Generare la matrice di peso del sito di binding del ribosoma col programma MotifSampler

Usage: MotifSampler <ARGS>

Required Arguments

-f <fastaFile> Sequences in FASTA format

-b <bgFile> File containing the background model description (quello generato col programma CreateBackgroundModel)

Optional Arguments

-s <0|1> Select strand. (default both), 0 is only input sequences, 1 include revomp

-p <value> Sets prior probability of 1 motif copy. (default 0.5).

-M <value> Maximal number of motif instances per sequence. (default unset = 0)

-n <value> Sets number of different motifs to search for (usare il valore di default 1).

-w <value> Sets length of the motif (usare 5).

-r <runs> Set number of times the MotifSampler should be repeated (default = 1).

Output formatting Arguments

-o <outFile> Output file to write results (default stdout).

-m <matrixFile> Output file to write retrieved motif models.

Ricordatevi che prima del nome del programma va messo "./" se si esegue il programma dalla cartella in cui è salvato!

La dimensione del sito da indentificare (circa 5-6 basi) potete dedurla dal risultato di WEBLOGO.

Aprire una shell e fornire il comando:

./MotifSampler -f user/stef/laboratorio/nome_file_out.fasta -b .../laboratorio/bacteria_bkgrmod -n 1 -w 5 -o output.txt -m out_matrix.txt

Nel file “out_matrix.txt è contenuto il file con la matrice di peso generata; nel file “output.txt" invece sono presenti i siti in cui sono stati identificati nei promotori forniti le differenti sequenze di binding.

Controllare con un editor di testo che nel file in cui è stata salvata la matrice del sito di binding sia presente il dato relativo ad un solo sito, nel caso ce ne fosse più di uno (se avete usato -n 2, o3 ) tenere solo il primo!!!!

5f - Procedere ora alla ricerca del medesimo sito in tutto il genoma del batterio utilizzando il programma MotifLocator.

Questo passaggio serve per identificare i siti di binding del ribosoma sul cromosoma e quindi per rendersi conto di quanto frequente è la sequenza identificata. Idealmente la sequenza corretta dovrebbe trovarsi poco a monte del sito di inizio della traduzione (20-30bp). Siti al di fuori di questa posizione possono essere dei falsi siti di binding o dei siti di binding a monte di regioni codificanti non precedentemente identificate.

Required Arguments

-f <fastaFile> Sequences in FASTA format

-b <bgFile> File containing the background model description

-m <matrixFile> File containing the matrix model descriptions

Optional Arguments

-t <value> Sets threshold above which a motif is selected (default 0.85).

-o <outFile> Output file to write results in GFF (default stdout)

-l <listFile> File with a list of identifiers to select individual matrices from the matrix file

-s <0|1> Select strand. (default both) 0 is only input sequences, 1 include revcomp

-a If selected, the scores are the normalized values instead of the absolute values.

Aprire una shell e fornire il comando:

./motifLocator -f user/stef/laboratorio/bacteria.fna -b user/stef/laboratorio/bacteria_bkgrmod -m user/stef/laboratorio/out_matrix.txt -t 0.85 -o risultato_finale.gff

Ricordarsi l'estensione .gff sul file col risultato finale altrimenti Artemis non lo legge! Nell’output sono presenti le localizzazioni di tutti i siti nel genoma in analisi.

Controllate il numero di "instances" che il programma restituisce come risultato a video sul terminale, non devono essere più del doppio dei geni del vostro batterio. Se necessario aumentare o diminuire la soglia da 0.85 a 0.90 o 0.99 (più stringente nel caso si ottengano un numero troppo elevato di risultati, tipo decine di migliaia).

L’output va poi esaminato con Artemis provvedendo prima a “caricare” il file del cromosoma corrispondente (quello in formato ".gbk") e quindi a caricare il file “.gff” con "read an entry".

Visualizzerete i siti RBS sul genoma del batterio e potrete confrontare la loro posizione con quella dei geni identificando i falsi positivi dai siti reali.

Ad esempio, sotto è rappresentato il RBS di E. coli posizionato circa 10 basi a monte dell’ATG (non è il risultato che verrà a voi!)

http://parts.igem.org/Help:Ribosome_Binding_Site

Riportate nella relazione la matrice e il motivo trovati, la soglia utilizzata, quanti siti avete identificato (falsi positivi, rispetto ai vostri geni ecc...) e un breve commento.