[Δείτε ένα ενημερωτικό βίντεο για την άσκηση εδώ]
Στην άσκηση αυτή θα δούμε πως μπορούμε να αντλήσουμε πληροφορία σε λειτουργικό επίπεδο από ένα πείραμα μέτρησης της γονιδιακής έκφρασης σε μεγάλη κλίμακα. Τα δεδομένα που θα χειριστούμε προέρχονται από το dataset της προηγούμενης άσκησης (Practical 06: Analysis of Gene Expression). Σκοπός της άσκησης είναι να δούμε πώς μπορούμε να εξαγάγουμε συμπεράσματα για το ρυθμιστικό πρόγραμμα έκφρασης μέσα από ένα συνδυασμό αναλύσεων εμπλουτισμού και πρότερης γνώσης σε επίπεδο κατηγοριοποίησης γονιδίων σε λειτουργίες.
Για τους σκοπούς της σημερινής άσκησης θα χρησιμοποιήσουμε δεδομένα που έχουν ήδη υποστεί σε μεγάλο βαθμό προεπεξεργασία. Συγκεκριμένα επειδή το ενδιαφέρον μας επικεντρώνεται στην λειτουργική ανάλυση και την ερμηνεία των αποτελεσμάτων, για τα αρχικά δεδομένα έκφρασης έχουν ήδη γίνει τα ακόλουθα στάδια ανάλυσης:
α) Κανονικοποίηση των δειγμάτων
β) Yπολογισμός σχετικού λογαρίθμου έκφρασης συνθήκης/κατάστασης ελέγχου (log(Fold-Change) = log(2)(ΕκφρασηΑ/ΕκφρασηΒ)).
γ) Υπολογισμός των p-value για ένα απλό t-test.
Mε τρόπο ανάλογο αυτού με τον οποίο εργαστήκαμε στην Εργαστηριακή Άσκηση 6.
Ο σκοπός της άσκησης είναι να αναλύσετε λειτουργικά δύο διαφορετικά αρχεία έκφρασης, να ερμηνεύσετε τα αποτελέσματα και να απαντήσετε στην ερώτηση που βρίσκεται στο τέλος της σελίδας.
Τα δεδομένα
Από την προηγούμενη άσκηση θα αποκομίσετε τις λίστες διαφορικά εκφρασμένων γονιδίων για τις συνθήκες Α-Ε, με βάση τα κριτήρια που θέσατε για log(Fold-Change) και p-value. Για κάθενα από αυτά τα αρχεία θέλουμε να κρατήσετε τα γονίδια που έχουν α) log2Fold-Change>=1 και P-value<=0.05 και β) log2Fold-Change<=-1 και P-value<=0.05 σε ξεχωριστές λίστες. Απ τις λίστες αυτές θα κρατήσετε μόνο το όνομα των γονιδίων. Στην R η καταγραφή δεδομένων σε αρχείο μπορεί να γίνει με μια συνάρτηση όπως η write.table. Γιά παράδειγμα, αν θέλουμε τα ονόματα των γονιδίων που είναι over-expressed στη συνθήκη Α σε ένα αρχείο μπορούμε να κάνουμε το εξής:
which(logFC_A>=1 & pval_A<=0.05)->up
write.table(data[up,1], file="A_up_genes.txt", quote=F, row.names=F, col.names=F)
Η παραπάνω εντολή θα γράψει σε ένα αρχείο στο φάκελο που εργάζεστε (έξω από την R) τα ονομάτα των γονιδίων (στήλη 1 του data) που πληρούν τις προϋποθέσεις που θέτει η which() εντολή. Μπορείτε έτσι να χειριστείτε αυτή τη λίστα γονιδίων περαιτέρω.
Διαδικασία
Συνολικά δηλαδή θα πρέπει να φτιάξετε 2 λιστές για κάθε αρχείο, μία με τα υπερ-εκφραζόμενα γονίδια (log2FC>=1, up-regulated) και μια με τα υπο-εκφραζόμενα (log2FC<=-1, down-regulated). Την επιλογή μπορείτε να κάνετε με όποιον τρόπο θέλετε. Ενας απλός τρόπος είναι να κατατάξετε τα γονίδια με βάση τις αριθμητικές τιμές τους σε ένα πρόγραμμα επεξεργασίας λογιστικών φύλλων (π.χ. Excel) και να επιλέξετε το πάνω ή το κάτω μέρος μιας λίστας αντίστοιχα.
Λειτουργική Ανάλυση
Για κάθεμια από τις λίστες αυτές θα πρέπει να προχωρήσετε σε λειτουργική ανάλυση χρησιμποποιώντας ένα εξειδικευμένο software που ονομάζεται gProfiler.
Θα ξεκινήσουμε "ανεβάζοντας" τα γονίδια με επικόλληση στο κεντρικό πεδίο του παρακάτω συνδέσμου:
http://biit.cs.ut.ee/gprofiler/
1. Αφού επιλέξετε οργανισμό (Mus musculus) και επικολλήσετε τη λίστα γονιδίων στο αντίστοιχο πεδίο, προχωρήστε στη λειτουργική ανάλυση.
2. Από το σύνολο των επιλογών (Options) ανοίξτε μόνο το πεδίο Data Sources για τις λειτουργικές κατηγορίες στις οποίες θα γίνει η ανάλυση. Από εκεί φροντίστε να είναι επιλεγμένες μόνο οι κατηγορίες Gene Ontology (και τα τρία υπο-πεδία, GO Biological Process, GO Molecular Function, GO Cellular Component) και από τα Pathways μόνο αυτό των KEGG.
3. Στη συνέχεια επιλέξτε εκτέλεση με το κουμπί Run Query (πορτοκαλί, κάτω από τη λίστα των γονιδίων).
4. Αφού περιμένετε λίγο για την εκτέλεση, κάντε scroll down και εξετάστε τα αποτελέσματα στο τέλος της σελίδας. Ενδιάμεσα θα δείτε πληροφορίες για γονίδια που έχουν ονόματα που αντιστοιχούν σε ελαφρώς διαφορετικές καταχωρήσεις στις βάσεις δεδομένων. Προχωρήστε στο τέλος και επιλέξτε το κόκκινο κουμπί: Permanently Ignore Ambiguous
5. Στο τέλος της σελίδας βλέπετε τώρα τα αποτελέσματα σε γραφική αναπαράσταση. Με mouse over πάνω από κάθε σημείο βλέπετε το όνομα της λειτουργικής κατηγορίας στην οποία αντιστοιχεί.
6. Επιλέξτε το πεδίο (tab) που γράφει Detailed Results για να δείτε τα αποτελέσματα σε μορφή λίστας. Στο σημείο αυτό εφαρμόστε ένα τελικό φίλτρο στον αριθμό των γονιδίων ανά κατηγορία. Στο πεδίο term size ορίστε όρια 30(μικρότερο)-500(μεγαλύτερο). Αυτό το κάνουμε για να επικεντρωθούμε σε λειτουργίες που δεν είναι ούτε πολύ εξειδικευμένες (με λίγα γονίδια) ούτε πολύ γενικές (με πάρα πολλά).
7. Σαν τελικό στάδιο, αποκομίστε τα αποτελέσματα σε σε μορφή csv για να είναι καλύτερα διαχειρίσιμα ως λίστα. Στη συνέχεια μπορείτε να ανοίξετε αυτή τη λίστα από το Excel.
8. Επαναλάβετε τη διαδικασία για τις υπόλοιπες συγκρίσεις. Για κάθε σετ δεδομένων (A-E) θα πρέπει να αναφέρετε: α) τους αριθμούς των γονιδίων που περιείχαν οι λίστες σας (up-, down-regulated) και β) τις στατιστικά σημαντικά υπερ-εκπροσωπούμενες λειτουργικές κατηγορίες KEGG Pathways, GO Biological Process, GO Molecular Function και GO Cellular Component.
9. Εξετάζοντας τις 10 συνολικά λίστες λειτουργικών κατηγοριών (5 συνθήκες Α-Ε για Υπερ- και Υπο-εκφραζομενα γονίδια) επικεντρωθείτε στις κορυφαίες (πιο στατιστικά σημαντικές) λειτουργικές κατηγορίες. Μια καλή εκτίμηση μπορεί να προκύψει αν κανείς επικεντρωθεί στις 10 πιο στατιστικά σημαντικές λειτουργίες (για κάθε υποκατηγορία KEGG Pathways, GO:BP, GO:MF, GO:CC)
Μια από τις συνθήκες που εξετάζετε προέρχεται από παθολογικά ζώα με συμπτώματα φλεγμονώδους πολυαρθρίτιδας. Η ερώτηση που καλείστε να απαντήσετε είναι ποια από τις 5 συνθήκες (Α, Β, C, D ή Ε) αντιστοιχεί σε αυτήν την παθολογική φλεγμονώδη κατάσταση. Έχοντας υπ' όψιν ότι μελετάμε μια φλεγμονώδη ασθένεια του ανοσοποιητικού με χαρακτηριστικά αυτοάνοσου νοσήματος προσπαθήστε να δείτε αν μπορείτε να διακρίνετε ανάμεσα στα λειτουργικά αποτελέσματα των 5 συνθηκών.
Στην απάντησή σας θα πρέπει να περιέχεται:
1. Η διαδικασία εξαγωγής των διαφορικά εκφραζόμενων γονιδίων, με τους αριθμούς των γονιδίων που είναι υπερ/υπό-εκφραζόμενα για τα δυο δείγματα
2. Η ανάλυση λειτουργικών κατηγοριών. Από την ανάλυση αυτή προτείνεται να κρατήσετε πίνακες με τις πιο αντιπροσωπευτικές, στατιστικά σημαντικές κατηγορίες. Μπορείτε να συμπεριλάβετε τις κατηγορίες αυτές στην τελική αναφορά σας σε πίνακες που θα περιέχουν α) το όνομα της κατηγορίας (term name) και β) το p-value (ή εναλλακτικά το -log10(p)).
3. Η επιχειρηματολογία για την απάντησή σας σχετικά με το ποιο είναι το πραγματικό dataset.
Aνεβάστε την αναφορά σας στο παρακάτω link.
https://www.dropbox.com/request/M6M44EhHyirjGHvMFfqh
έως την Κυριακή 24/5/2020 στις 23.59