Λειτουργική Ανάλυση Γονιδιακής Έκφρασης
Εισαγωγή
Στην άσκηση αυτή θα δούμε πως μπορούμε να αντλήσουμε πληροφορία σε λειτουργικό επίπεδο από ένα πείραμα μέτρησης της γονιδιακής έκφρασης σε μεγάλη κλίμακα. Τα δεδομένα που θα χειριστούμε προέρχονται από ένα δημοσιευμένο πείραμα μέτρησης της γονιδιακής έκφρασης με microarrays σε ασθενείς με Ρευματοειδή Αρθρίτιδα σε σχέση με υγιείς δότες.
Μεθοδολογία
Για τους σκοπούς της σημερινής άσκησης θα χρησιμοποιήσουμε δεδομένα που έχουν ήδη υποστεί σε μεγάλο βαθμό προεπεξεργασία. Συγκεκριμένα επειδή το ενδιαφέρον μας επικεντρώνεται στην λειτουργική ανάλυση και την ερμηνεία των αποτελεσμάτων, για τα αρχικά δεδομένα έκφρασης έχουν ήδη γίνει τα ακόλουθα στάδια ανάλυσης:
α) Κανονικοποίηση των δειγμάτων (8 ασθενείς και 8 υγιείς καλλιέργειες ινοβλαστών της άρθρωσης (synovial fibroblasts)).
β) Yπολογισμός σχετικού λογαρίθμου έκφρασης ασθενών/υγιών (log(Fold-Change) = log(2)(ΕκφρασηΑ/ΕκφρασηΒ)).
γ) Υπολογισμός των p-value για ένα απλό t-test και διόρθωσή του με τη μέθοδο των Benjamini-Hochberg.
Tα πρωτογενή δεδομένα είναι δημοσιευμένα από τους:
και μπορούν να βρεθούν εδώ: http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE29746
Υπολογιστικό Μέρος
1. Ο σκοπός της άσκησης είναι να αναλύσετε λειτουργικά δύο διαφορετικά αρχεία έκφρασης, να ερμηνεύσετε τα αποτελέσματα και να απαντήσετε στην ερώτηση που βρίσκεται στο τέλος της σελίδας.
2. Τα δεδομένα: Βρίσκονται συνημμένα στο τέλος της σελίδας με τη μορφή αρχείων αμορφοποίητου κειμένου (txt). Κάθε αρχείο από τα Dataset1.txt, Dataset2.txt περιέχει μια λίστα 11880 γονιδίων για κάθενα από τα οποία δίνεται η σχετική διαφορά έκφρασης με το control (log2Fold-Change) και το διορθωμένο p-value. Το ένα από τα δύο προέρχεται από το πραγματικό πείραμα ενώ το άλλο από μια τυχαιοποιημένη ανακατανομή τιμών γονιδίων.
3. Για κάθενα από αυτά τα αρχεία θέλουμε να κρατήσετε τα γονίδια που έχουν α) log2Fold-Change>=1 και P-value<=0.05 και β)
log2Fold-Change<=-1 και P-value<=0.05 σε ξεχωριστές λίστες με το όνομα μόνο των γονιδίων. Συνολικά δηλαδή θα πρέπει να φτιάξετε 2 λιστές για κάθε αρχείο, μία με τα υπερ-εκφραζόμενα γονίδια (log2FC>=1, up-regulated) και μια με τα υπο-εκφραζόμενα (log2FC<=-1, down-regulated). Την επιλογή μπορείτε να κάνετε με όποιον τρόπο θέλετε. Ενας απλός τρόπος είναι να κατατάξετε τα γονίδια με βάση τις αριθμητικές τιμές τους σε ένα πρόγραμμα επεξεργασίας λογιστικών φύλλων (π.χ. Excel) και να επιλέξετε το πάνω ή το κάτω μέρος μιας λίστας αντίστοιχα.
4. Για κάθεμια από τις λίστες αυτές θα πρέπει να προχωρήσετε σε λειτουργική ανάλυση "ανεβάζοντας" τα γονίδια με επικόλληση στον παρακάτω σύνδεσμο:
http://amp.pharm.mssm.edu/Enrichr/index.html.
5. Από το σύνολο των αποτελεσμάτων θα πρέπει να επικεντρωθείτε στα πεδία (tabs) Pathways και Ontologies από τα οποία θα θέλαμε να ελέγξετε μόνο τα KEGG Pathways και τα Gene Ontologies (GO) αντίστοιχα. Διαβάστε τις λίστες λειτουργικών κατηγοριών που προκύπτουν ως υπερ-εκπροσωπημένες στο δείγμα σας (λίστες γονιδίων που έχετε επικολλήσει) και δείτε τους διαφορετικούς τρόπους αναπαράστασης. Για κάθε σετ δεδομένων (Dataset1,2) θα πρέπει να αναφέρετε: α) τους αριθμούς των γονιδίων που περιείχαν οι λίστες σας (up-, down-regulated) και β) τις στατιστικά σημαντικά υπερ-εκπροσωπούμενες λειτουργικές κατηγορίες KEGG Pathways, GO Biological Process, GO Molecular Function και GO Cellular Component
6. Η ερώτηση που καλείστε να απαντήσετε είναι ποιο από τα δύο Datasets (1 ή 2) είναι το πραγματικό σετ δεδομένων που παρουσιάζει την σύγκριση ασθενών/υγιών δοτών. Έχοντας υπ' όψιν ότι μελετάμε μια φλεγμονώδη ασθένεια του ανοσοποιητικού με χαρακτηριστικά αυτοάνοσου νοσήματος προσπαθήστε να δείτε αν μπορείτε να διακρίνετε ανάμεσα στο πραγματικό σετ τιμών έκφρασης από το τυχαιοποιημένο και να πείτε ποιο είναι ποιο.