Κανονικές Εκφράσεις (Regular Expressions)
Σε αυτήν την άσκηση θα εφαρμόσουμε στοιχεία από το μάθημα των κανονικών εκφράσεων
Κατεβάστε τo αρχείo ecoli.fa που περιέχει το γονιδίωμα του E. coli.
Γράψτε ενα πρόγραμμα που θα διαβάζει το αρχείο κατευθείαν (χωρίς να το εισάγετε στο σώμα του προγράμματος δηλαδη) και στη συνέχεια:
1. Θα εντοπίζει τα ανοιχτά πλαίσια ανάγνωσης στην αλληλουχία. Ως ανοιχτό πλαίσιο ανάγνωσης θα ορίζουμε κάθε υπο-αλληλουχία που εκκινώντας από ένα ATG (κωδικόνιο έναρξης) ακολουθείται απο ακέραιο αριθμό τουλάχιστον 30 τριπλετών μέχρι να συνατηθεί ένα κωδικονίου λήξης (ΤΑΑ, ΤΑG, TGA) στο ίδιο πλαίσιο ανάγνωσης εννοείται. Αναφέρατε πόσα ανοιχτά πλαίσια ανάγνωσης εντοπίσατε
2. Έχοντας αποθηκεύσει στη μνήμη τα ανοιχτά πλαίσια ανάγνωσης μεταφράστε τα σε πρωτεϊνες και τυπώστε τις πρωτεϊνες, τα σημεία του γονιδιώματος που αυτές εντοπίζονται και τα μήκη τους σε ένα αρχείο.
Βοήθεια:
Οργανώστε καλά τα αρχεία εξόδου στα οποίο θα αναγραφούν τα αποτελέσματα.
Δώστε προσοχή στο γεγονός ότι εξετάζουμε ένα πλήρες γονίδιωμα. Γονίδια και ανοιχτά πλαίσια ανάγνωσης υπάρχουν και στους δύο κλώνους του DNA (forward, reverse complement).
Χρησιμοποιείστε έναν hash πίνακα για τη μετάφραση των ανοιχτών πλαισίων ανάγνωσης.
Σημεία που πρέπει να προσέξετε:
α) Είναι αναμενόμενο ανοιχτά πλαίσια ανάγνωσης να επικαλύπτονται, σε κάποιες δε περιπτώσεις κάποια ανοιχτά πλαίσια ανάγνωσης θα περιέχουν εξ' ορισμού κι άλλα μικρότερα (όλα όσα θα ορίζονται από κάθε Met που θα περιέχει η πρωτεϊνη). Προσέξτε ώστε το πρόγραμμά σας να μην μετράει πολλές φορές το ίδιο ανοιχτό πλαίσιο ανάγνωσης.
β) Προσέξτε την κωδικοποίηση του regular expression με το οποίο θα κάνετε την αναζήτηση.
γ) Λόγω της απαιτητικότητας της άσκησης μπορείτε αν επιθυμείτε να εργαστείτε σε ομάδες.