2. Analyzing sequence motifs

Εύρεση μικρών μοτίβων αλληλουχίας (short sequence motifs) σε Γονιδιωματικές Αλληλουχιές

Εισαγωγή

Στην άσκηση αυτή θα ασχοληθούμε με τον εντοπισμό μοτίβων αλληλουχιών. Αρχικά θα προσπαθήσουμε να εντοπισουμε μικρά cis-στοιχεία σε προ-στοιχισμένες αλληλουχίες Και στη συνέχεια θα τα αναζητήσουμε σε άγνωστες αλληλουχίες.

Μεθοδολογία

Για τους σκοπούς του μαθήματος θα χρησιμοποιήσουμε μια σειρά από υπολογιστικές μεθόδους που έχουν ήδη αναπτυχθεί και δοκιμαστεί από (άλλα) μέλη της επιστημονικής κοινότητας καθώς και βάσεις δεδομένων που διαχειρίζονται διεθνείς οργανισμοί και ομάδες. Πολλά από αυτά τα εργαλεία συγκεντρώνονται σε σύνδεση με τις βάσεις δεδομένων στην ιστοσελίδα Galaxy

https://usegalaxy.org/

Το Galaxy είναι ουσιαστικά μια σουίτα προγραμμάτων που επικοινωνεί απευθείας με τις μεγαλύτερες βάσεις δεδομένων και μας επιτρέπει να κάνουμε απλές (και όχι και τόσο απλές) υπολογιστικές εργασίες μέσα στο ίδιο περιβάλλον ενώ βρισκόμαστε συνδεδεμένοι σε έναν μακρυνό server.

Υπολογιστικό Μέρος

Θέλουμε να εξάγουμε τα μοτίβα των θέσεων ματίσματος σε εξόνια του ανθρώπου και της Drosophila. Να πως θα το κάνουμε:

  1. Ανοίγουμε την ιστοσελίδα https://usegalaxy.org/
  2. Από τα μενού που βρίσκονται αριστερά επιλέγουμε το Get Data και από εκεί το UCSC Μain. Βρισκόμαστε έτσι στο περιβάλλο της βάσης δεδομένων πλήρων γονιδιωμάτων του University of California at Santa Cruz όπου εκτός από τις πρωτοταγείς αλληλουχίες μπορεί κανείς να βρει έναν μεγάλο αριθμό μετα-γονιδιωματικών αναλύσεων.
  3. Μέσα στο περιβάλλον του UCSC στον κλάδο (clade) επιλέγουμε mammal και στο είδος (genome) Η. sapiens (human). Στο πεδίο assembly επιλέγουμε 2006. Ο πίνακας (table) που επιλέγουμε είναι αυτός που περιέχει τα γονίδια Gene and Gene Prediction tracks και η σειρά στοιχείων (track) που αναζητάμε είναι η RefSeq. Στο πεδίο table επιλέγουμε RefGene και στο πεδίο region επιλέγουμε genome για να πάρουμε τα δεδομένα για ολόκληρο το γονιδίωμα. Στο τελευταίο στάδιο επιλέγουμε τη μορφοποίηση των δεδομένων που θέλουμε. Στο output format επιλέγουμε BED – Browser Extensible Data και τέλος κάνουμε click στο get output.
  4. Στην επόμενη σελίδα. Επιλέγουμε "Εxons plus" και στο διπλανό πεδίο βάζουμε: 50 bps at each end. δεν αλλάζουμε τίποτα άλλο παρά ζητούμε τα δεδομένα να σταλούν απευθείας στο Galaxy. (Send Query to Galaxy)
  5. Έχουμε επιστρέψει στο Galaxy όπου υπάρχει στα αριστερά μια λίστα με τα αρχεία που χειριζόμαστε εμείς. Εμφανίζεται ένα αρχείο που λέγεται UCSC Main. Εμείς απλώς αλλάζουμε το όνομα name σε Human Exons και στη συνέχεια επιλέγουμε save.
  6. Χρειαζόμαστε μια στοιχημένη εκδοχή των αλληλουχιών μας. Αυτές που έχουμε είναι πάρα πολλές και έχουν διάφορα μήκη. Μπορούμε να προσπεράσουμε το θέμα της στοίχισης επιλέγοντας αυστηρά το μήκος των αλληλουχιών. Αν όλες έχουν το ίδιο μήκος και δεδομένου οτι έχουμε ζητήσει να ξεκινούν από το ίδιο σημείο (-50 από το εξόνιο), το αποτέλεσμα θα είναι ένα υποσύνολο στοιχημένων αλληλουχιών. Επιλέγουμε από το αριστερό μενού FILTER AND SORT -> filter data και στη συνέχεια Filter data on any column using simple expressions. Το όριο που θα βάλουμε είναι όριο μήκους και θα το δηλωσουμε ως εξής c3-c2==200. Τι μήκος εξονίων έχουμε επιλέξει; To μετονομάζουμε σε Human Exons L=...
  7. Εχουμε πλεόν το αρχείο με τα εξόνια που θέλουμε. Αυτό που χρειαζόμαστε όμως είναι οι αλληλουχίες. Ας αφήσουμε το Galaxy να μας τις φέρει. Στο αριστερό μενού βρείτε το Fetch sequences και επιλέξτε Extract Genomic DNA. Στο κεντρικό πεδίο τώρα εμφανίζεται ένα πεδίο που μας ρωτάει για ποια αναζήτησή μας θέλουμε τις αλληλουχίες. Επιλέγουμε το μοναδικό ως τώρα αρχείο μας με τίτλο Human Exons L=... και στη συνέχεια execute. Ενα νέο αρχείο που εμφανίζεται στα δεξιά περιέχει τις αλληλουχίες όλων των γονιδίων μας. Με το μολύβι και κατά τα γνωστά το μετονομάζουμε σε Human Exons L= … FASTA.
  8. Στο βασικό βήμα, θα δημιουργήσουμε το Sequence Logo των αλληλουχιών μας. Με το “ματάκι” βλέπουμε τη συλλογή των αλληλουχιών που είναι πια στοιχημένες, κάνουμε copy και paste εδώ: http://weblogo.berkeley.edu/
  9. Επιλέξτε Create Logo για να δείτε το αποτέλεσμα. Στη συνέχεια “παίξτε” με τις παραμέτρους του συστήματος και εξάγετε τα μοτίβα στα σημεία ματίσματος επιλέγοντας τις κατάλληλες θέσεις στις στοιχημένες αλληλουχίες σας. Η αλληλουχία είναι εκτεταμένη αλλά το logo δεν ειναι κι έτσι θα βοηθηθούμε για να εντοπίσουμε τα μοτίβα.
  10. Επαναλάβετε την διαδικασία για το γονιδίωμα της Drosophila Melanogaster. Αυτό βρίσκεται στο UCSC genome browser στη κατηγορία (clade=Insects), (genome)=D.melanogaster και για αυτό του C. elegans (clade=Worm). Επιλέγετε τις τελευταίες εκδόσεις (2006 dm3, 2008 ce6 αντίστοιχα) και κατ' αντίστοιχια με τον άνθρωπο τα γονίδια refseq -> RefGene.Να εξάγετε τα αντίστοιχα μοτίβα από το Seq Logo, να τα παρουσιάσετε και να τα σχολιάσετε συγκριτικά.