1. Using a Genome Browser to view and download data.

Πόσα γονίδια περιέχει το ανθρώπινο γονιδίωμα; Χρήση ενός Genome Browser για απεικόνιση και αποδομιδή δεδομένων.

Σε αυτήν την πρώτη πρακτική άσκηση θα προσπαθήσουμε να απαντήσουμε σε ένα απλό ερώτημα:

Πόσα γονίδια περιέχει το ανθρώπινο γονιδίωμα;

Όσο απλό κι αν ακούγεται, το ερώτημα αυτό αποτέλεσε κάποια στιγμή αντικείμενο έντονης διαμάχης μεταξύ των μελών της επιστημονικής κοινότητας. Κατά τη διάρκεια μάλιστα της αλληλούχισης του ανθρώπινου γονιδιώματος οι απόψεις για τον τελικό αριθμό διέφεραν τόσο πολύ, που έφτασε να θεσπιστεί ένα ιδιότυπο "στοίχημα" για τον ακριβή αριθμό των ανθρώπινων γονιδίων. Με δεδομένο ότι ήταν ήδη γνωστό πως λιγότερο πολύπλοκοι οργανισμοί με μικρότερα γονιδιώματα όπως η Drosophila melanogaster και ο C. elegans περιείχαν γύρω στα 20000 γονίδια, οι περισσότεροι στοιχημάτιζαν για έναν αριθμό μεταξύ 70000 και 100000 γονιδίων για τον άνθρωπο. Ωστόσο, όταν η αλληλούχιση ολοκληρώθηκε προέκυψε πως ακόμα και για τον άνθρωπο ο αριθμός αυτός ήταν αρκετά συγκρίσιμος με τους αντίστοιχους απλούστερων οργανισμών.

Ο αριθμός λοιπόν των γονιδίων του ανθρώπου που κωδικοποιούν για πρωτεϊνες είναι περίπου 25000. Παρ' όλα αυτά και αυτός ο τελικός αριθμός διαφέρει ανάλογα με την πηγή από την οποία αντλούμε τα δεδομένα μας. Κι αυτό γιατί η διαδικασία "καταλογογράφησης" των γονιδίων είναι αρκετά πολύπλοκη, περνά μέσα από διάφορα στάδια και μπορεί να γίνει με διάφορες παραλλαγές. Για να καταλάβουμε καλύτερα αυτή τη διαδικασία θα πρέπει να έχουμε υπ' όψιν πώς γίνεται ο "σχολιασμός" (annotation) ενός πλήρους γονιδιώματος.

Με τον όρο "σχολιασμός γονιδιώματος" αναφερόμαστε στο σύνολο των λειτουργικών αναλύσεων με τις οποίες αποδίδεται βιολογική σημασία σε διακριτά και καλά ορισμένα τμήματα της αλληλουχίας του. Ο σχολιασμός περιλαμβάνει τόσο υπολογιστικές αναλύσεις (μελέτες ομολογίας, συγκριτικη γονιδιωματική, πρόβλεψη γονιδίων) αλλά και την ενσωμάτωση πειραματικών δεδομένων. Ανάλογα με τον βαθμό στον οποίον διενεργούνται οι δύο αυτές αναλύσεις μπορούν να προκύψουν διαφορετικά σύνολα γονιδίων για ένα δεδομένο γονιδίωμα. Έτσι ο αριθμός των ανθρώπινων γονιδίων διαφέρει αν κανείς αναφέρεται μόνο στα "πειραματικά επιβεβαιωμένα" γονίδια, αν συμπεριλαμβάνει στο σύνολό του και τα μη-κωδικά RNA γονίδια, τα ψευδογονίδια (ανενεργά γονίδια που είναι απολιθώματα γονιδίων σε "αποσύνθεση") κλπ. Υπάρχουν έτσι διαφορετικές συλλογές γονιδίων για το ανθρώπινο γονιδίωμα (και άλλα). Οι πιο γνωστές είναι η Refseq, η ENSEMBL και η CCDS αλλά υπάρχουν και πολλές άλλες. Σε αυτήν την άσκηση θα δούμε πώς μπορούμε να αποκομίσουμε τα σύνολα των ανθρώπινων γονιδίων για τις δύο πρώτες:

  • Refseq Genes
  • UCSC Genes

Θα προσπελάσουμε αυτές τις διαφορετικές βάσεις δεδομένων μέσω ενός προγράμματος Γονιδιωματικού Φυλλομετρητή (Genome Browser). Aυτός θα είναι ο University of California at Santa Cruz (UCSC) Genome Browser: http://genome.ucsc.edu/

Χρήση του Genome Browser για απεικόνιση δεδομένων

Ο UCSC Genome Browser είναι μια διαδικτυακή υπηρεσία οπτικοποίησης γονιδιωματικών δεδομένων που λειτουργεί ταυτόχρονα και ως αποθηκευτήριο δεδομένων. Από την αρχική του σελίδα μπορείτε να πλοηγηθείτε στο πεδίο Genome Browser (αριστέρα) και επιλέγοντας το γονιδίωμα που σας ενδιαφέρει να οπτικοποιήσετε μια οποιαδήποτε περιοχή του, για την οποία μπορείτε να επιλέξετε τα δεδομένα που θα αναπαρασταθούν και τον τρόπο με τον οποίον θα γίνει αυτό. Μπορείτε τέλος να δημιουργήσετε και εικόνες με τα δεδομένα που επιθυμείτε για μια συγκεκριμένη περιοχή.

Αποκομιδή δεδομένων από τον UCSC Table Browser

Όλα τα δεδομένα που αναπαρίστανται γραφικά από τον Genome Browser υπάρχουν σε μορφή πινάκων στη βάση δεδομένων του UCSC και είναι προσβάσιμα ελεύθερα από όλα τα μέλη της επιστημονικής κοινότητας. Έτσι αν επιθυμούμε να μάθουμε τις ακριβείς συντεταγμένες όλων των ανθρώπινων γονιδίων μπορούμε να το κάνουμε με τη χρήση του Table Browser: http://genome.ucsc.edu/cgi-bin/hgTables

Ο Τable Browser περιέχει όλα τα δεδομένα σε μορφή πινάκων. Η ακριβής μορφή των πινάκων διαφέρει ανάλογα με το είδος των δεδομένων. Έτσι αν τα δεδομένα είναι αλληλουχίες τότε οι πίνακες μοιάζουν με μεγάλα αρχεία κειμένου, ενώ αν είναι συντεταγμένες στο γονιδίωμα (genomic coordinates) έχουν μια πολύ χαρακτηριστική μορφή που είναι:

Στήλη 1 Στήλη 2 Στήλη 3 Στήλη 4 ....

Όνομα Χρωμοσώματος Αρχή Τέλος Λοιπά Στοιχεία

Η διάταξη αυτή ονομάζεται browser extensible format (bed) και είναι αυτή με την οποία θα αποκομίσουμε τις συντεταγμένες των γονιδίων του ανθρώπου. Θα πάρουμε δηλαδή ένα αρχείο που θα περιέχει σε κάθε γραμμή ένα γονίδιο για το οποίο θα περιέχονται σε στήλες το όνομα του χρωμοσώματος στο οποίο βρίσκεται, καθώς και οι ακριβείς θέσεις του σημείου έναρξης και λήξης της μεταγραφής του. Υπάρχουν προαιρετικά και επιπλέον στήλες που περιέχουν περαιτέρω στοιχεία για το κάθε γονιδιωματικό στοιχείο, όπως όνομα γονιδίου, αριθμητικές τιμές κλπ. Τα αρχεία τύπου bed είναι εξαιρετικά χρήσιμα για την ανάλυση γονιδιωματικών δεδομένων τόσο μέσω προγραμμάτων Browser αλλά και αλλιώς.

Αρχικά θα κάνουμε την ανάλυση για τα γονίδια της RefSeq, που είναι ένας από τους πιο συχνά χρησιμοποιούμενους καταλόγους γονιδίων για τα ευκαρυωτικά γονιδιώματα. Σκοπός μας είναι να αποκομίσουμε όλα τα γονίδια της RefSeq για το ανθρώπινο γονιδίωμα. Ξεκινώντας από τον Table Browser (http://genome.ucsc.edu/cgi-bin/hgTables) και χρησιμοποιώντας τα μενού πλοήγησης, πρώτα θα καθορίσουμε το γονιδίωμα και έπειτα το στοιχείο του γονιδιώματος που θέλουμε:

clade:mammals

genome:human

assembly: hg19 (Feb 2009)

group: Genes and Gene Predictions

track: NCBI RefSeq

table: UCSC RefSeq


Για την αποκομιδή του αρχείου επιλέγετε:

οutput format: selected fields ...

και στον πίνακα που προκύπτει μετά το "get output" επιλέγετε:

name (όνομα μεταγράφου)

chrom (χρωμόσωμα)

strand (κλώνος κωδικής αλληλουχίας)

txStart (αρχική συντεταγμένη)

txEnd (τελική συντεταγμένη)

exonCount (αριθμός εξονίων)

name2 (όνομα γονιδίου)

Get Output: Το αρχείο θα πρέπει να εμφανιστεί στην οθόνη σας.

Παρατηρήστε το αρχείο, προσπαθώντας αρχικά να απαντήσετε στις παρακάτω ερωτήσεις:

Πόσες γραμμές περιέχει;

Τι περιέχει η στήλη name2 και γιατί εμφανίζει επαναλήψεις του ίδιου ονόματος;

Aνάλυση δεδομένων για το ανθρώπινο γονιδίωμα

  1. Αφού κατεβάσετε το αρχείο στον υπολογιστή σας θέλουμε να μάθουμε πόσα μετάγραφα (transcripts) περιέχει. Θυμηθείτε ότι η κάθε γραμμή στο αρχείο περιέχει πληροφορία για ένα μετάγραφο, αλλά το ίδιο γονίδιο μπορεί να αντιστοιχεί σε πολλά μετάγραφα.
  2. Μπορείτε να βρείτε έναν τρόπο να υπολογίσετε: α) πόσα γονίδια περιέχει το αρχείο; β) πόσα γονίδια περιέχει το κάθε χρωμόσωμα; γ) ποιο είναι το γονίδιο με τα περισσότερα μετάγραφα;

Στη συνέχεια θα δούμε πώς μπορούμε να αναλύσουμε τον πίνακα αυτόν των δεδομένων με τη χρήση της R. Συγκεκριμένα θα χρησιμοποιήσουμε την R (ή το R-Studio) για να φορτώσουμε τα δεδομένα στο περιβάλλον της R και στη συνέχεια για να κάνουμε τους παραπάνω υπολογισμούς. Τα βήματα που πρέπει να ακολουθήσουμε είναι:

Α. Άνοιγμα R (ή R-studio) και ορισμός working directory

setwd("C:/pathtofolder/")...

Mε αυτόν τον τρόπο η R "βρίσκεται" στον φάκελο όπου περιέχονται τα δεδομένα τα οποία μπορούμε τώρα να διαβάσουμε σε μια μεταβλητή-πίνακα με την εντολή.

B. Εισαγωγή των δεδομένων στην R με τη συνάρτηση read.delim()

refseq<-read.delim("Human_genes_RefSeq.bed", header=T, sep="\t")

Στην παραπάνω εντολή υποθέτουμε ότι υπάρχει ένα αρχείο που περιέχει σε μορφή bed τα δεδομένα σας. Αν δεν το έχετε (ή για κάποιο λόγο δεν μπορέσατε να το κατεβάσετε) μπορείτε να το βρείτε εδώ.

δειτε τις πρώτες γραμμές του αρχείου ζητώντας να δείτε την αρχή της μεταβλητής refseq

head(refseq)

Γ. Καταμέτρηση συνδυασμών με την συνάρτηση table()

Πώς θα υπολογίσουμε τώρα τον αριθμό των transcripts που περιέχει κάθε χρωμόσωμα; Πολύ απλά με τη χρήση της συνάρτησης table πάνω στη στήλη της μεταβλητής που μας ενδιαφέρει. Η στήλη με τα χρωμοσώματα συμβολίζεται ως refseq$chrom. Η εκτέλεση της εντολής:

table(refseq$chrom)

Μας δίνει το αποτέλεσμα που επιθυμούμε, το οποίο μπορούμε να αποθηκεύσουμε σε μια μεταβλητή/πίνακα (με τη χρήση του "<-")

chromosomes<-table(refseq$chrom)

Μπορούμε επιπλέον να κατατάξουμε αυτή τη λίστα από το μικρότερο (σε αριθμό) στο μεγαλύτερο χρωμόσωμα:

sort(chromosomes)->chromosomes

να βρουμε πόσα χρωμοσώματα έχουμε:

n<-length(chromosomes); 
n

Δ. Γραφικές αναπαραστάσεις δεδομένων στην R

Μπορούμε να δούμε το παραπάνω αποτέλεσμα γραφικά σε μια πίτα:

pie(chromosomes, col=rainbow(51))

ή σε ραβδόγραμμα (με μια λίγο πιο σύνθετη εντολή):

par(mar=c(5,10,3,3));barplot(chromosomes, col=rainbow(51), las=1, xlab="number of genes", main="chromosome name", cex.names=0.8, horiz=T)


Ερωτήσεις-Ασκήσεις για Γραπτή Αναφορά

Με βάση τα όσα είδατε στη συγκεκριμένη άσκηση θα πρέπει να συντάξετε μια αναφορα στην οποία θα απαντάτε στις παρακάτω ερωτήσεις:

  1. Στο αρχείο που έχετε κατεβάσει περιλαμβάνεται και η πληροφορία για τον αριθμό των εξονίων του κάθε μεταγράφου. Μπορείτε να βρείτε ποιος είναι ο μέσος αριθμός εξονίων στα ανθρώπινα μετάγραφα;
  2. Υπολογίστε το ποσοστό των μεταγράφων που βρίσκονται στον + σε σχέση με τον - κλώνο. Πόσο διαφέρουν τα δύο ποσοστά; Είναι αυτό αναμενόμενο;
  3. Τέλος, μπορείτε να καταλάβετε από τα δεδομένα σας αν τα μετάγραφα με μεγάλο μήκος τείνουν να έχουν και περισσότερα εξόνια ή όχι; Σκεφτείτε πώς θα εξετάσετε μια τέτοια σχέση. (bonus points)

H αναφορά σας δε θα πρέπει να ξεπερνάει τις τρεις σελίδες. Ζητούμε ένα αρχείο κειμένου σε PDF στο οποίο θα περιγράφονται τα βήματα της διαδικασίας που ακολουθήσατε και τα αποτελέσματα στις παραπάνω ερωτήσεις σαφώς διατυπωμένα. Πίνακες/διαγράμματα που συνοδεύουν τις αναλύσεις σας θα πρέπει να βρίσκονται μέσα στην αναφορά και όχι σε ξεχωριστά αρχεία.

1. Ονομάστε το αρχείο χρησιμοποιώντας το ονοματεπώνυμο και τον ΑΜ, χρησιμοποιώντας λατινικούς χαρακτήρες χωρίς κενά (π.χ. Maria_Pentagiotisa_AM1234_Practical_01.pdf).

2. Ανεβάστε την αναφορά σας στο παρακάτω link:

https://www.dropbox.com/request/m15ytypMTbHnCbTJKP53

Προθεσμία: 23/2/2020, ώρα 23:59