Εξετάσεις Σεπτεμβρίου 2020

Θεματα ΒΙΟ109

Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων

Σεπτέμβριος 2020

ΒΙΟΛ109 – Χρήσεις των Η/Υ και Βάσεις Βιολογικών Δεδομένων

ΕΞΕΤΑΣΕΙΣ ΣΕΠΤΕΜΒΡΙΟΥ 2020

Α. ΕΙΣΑΓΩΓΗ

Στη σελίδα αυτή θα βρείτε όλες τις πληροφορίες που σας χρειάζονται για την ολοκλήρωση της εργασίας, με την οποία θα αξιολογηθείτε για την εξεταστική περίοδο του Σεπτεμβρίου 2020.

Η εργασία θα βασιστεί σε ένα σύνολο μικτών δεδομένων που προέρχονται από δημογραφικά, γεωγραφικά και οικονομικά στοιχεία διαφόρων χωρών του κόσμου (εκτός ΗΠΑ) και των θυμάτων από την ασθένεια Covid19.

Τα δεδομένα είναι τροποποιημένα από ένα πιο πολύπλοκο σετ και μπορείτε να τα κατεβάσετε από τον παρακάτω σύνδεσμο:

https://www.dropbox.com/s/k39dpiyvyt5osss/Covid19_collected_deaths_demographics.tsv

Αφού μεταβείτε στον παραπάνω σύνδεσμο, επιλέξτε download για να αποθηκεύσετε το αρχείο στον υπολογιστή εργασίας. Το παραπάνω αρχείο είναι ένα tab-separated file (tsv) που θα πρέπει να διαβαστεί ως data.frame στην R.

Το dataframe περιέχει στοιχεία που αφορούν την κάθε χώρα και συγκεκριμένα (με τη σειρά εμφάνισης των στηλών):

"Country": Χώρα

"Population": Πληθυσμός

"Population/sqkm": Πληθυσμιακή πυκνότητα

"MedianAge": Διάμεση ηλικία

"PercentOver65": Ποσοστό πληθυσμού >65

"PercentUnder15": Ποσοστό πληθυσμού <15

"PerCapita": ΑΕΠ ανά κάτοικο

"CO2": Εκπόμπές CO2 ανά κάτοικο

"Imports/perCapita": Εισαγωγές ανά κάτοικο (σε δολλάρια)

"Literacy": Ποσοστό αλφαβητισμού

"Passengers/perCapita": Αεροπορικοί επιβάτες ανά κάτοικο

"Railroad/sqkm": Μήκος σιδηροδρόμων ανά τετραγωνικό χιλιόμετρο

"Coastline/sqkm": Μήκος ακτογραμμής ανά τετραγωνικό χιλιόμετρο

"HighestPoint": Υψηλότερο σημείο

"HospitalBeds/1000": Νοσοκομειακές κλίνες ανά 1000 κατοίκους "Percent_UndeWeight_Children": Ποσοστό υποσιτισμένων παιδιών

"%Pop_with_BMI_over30": Ποσόστο υπέρβαρων ενηλίκων (BMI>30)

“Day 1 - Day 217”: Aριθμός αθροιστικών θανάτων από Covid19 (ως ημέρα 1 λαμβάνεται η 23/1/2020 και ως ημέρα 217 η 26/8/2020).

Σημειώστε ότι με τον όρο αθροιστικοί θάνατοι εννοούμε ότι κάθε ημέρα καταγράφονται οι συνολικοί θάνατοι από την αρχή των μετρήσεων. Δηλαδή αν σε μια ημέρα η τιμή είναι 10 και η τιμή της επόμενης ημέρας είναι 15 σημαίνει ότι μεταξύ των δύο ημερών είχαμε 5 επιπλέον θανάτους (10+5=15).


Β. ΖΗΤΟΥΜΕΝΑ

Σας ζητείται να αναλύσετε τα δεδομένα με σκοπό να απαντήσετε στα παρακάτω ερωτήματα:

1. Ο αριθμός των θανάτων σε κάθε χώρα είναι άμεσα συσχετισμένος με τον πληθυσμό τους. Μια χώρα με πολλούς κατοίκους είναι λογικό να καταγράφει και πολλούς θανάτους:

a) Να δείξετε ότι κάτι τέτοιο όντως ισχύει συσχετίζοντας τον συνολικό αριθμό θυμάτων (τελευταίας ημέρας) με τον πληθυσμό της κάθε χώρας

b) Να υπολογίσετε μια νέα ποσότητα που θα αντιστοιχεί στον αριθμό των θυμάτων ανά εκατομμύριο κατοίκων. Να εξετάσετε κατά πόσο αυτή η νέα ποσότητα συσχετίζεται με τον πληθυσμό.

[3 μονάδες]

2. Έχοντας υπολογίσει τον αριθμό θυμάτων ανά εκατομμύριο κατοίκων να εξετάσετε σε ποιο βαθμό αυτή η ποσότητα διαφέρει μεταξύ διαφορετικών κατηγοριών χωρών. Η κατηγοριοποίηση να γίνει σε τρία επίπεδα:

a) Πλούσιες εναντίον φτωχών χωρών, με βάση το ΑΕΠ ανά κάτοικο (PerCapita). Να υπολογίσετε τη διάμεση τιμή του PerCapita και στη συνέχεια να χωρίσετε τις χώρες σε πλούσιες (>= διάμεση τιμή) και φτωχές (<διάμεση τιμή). Στη συνέχεια να συγκρίνετε τον αριθμό θυμάτων ανά εκατομμύριο μεταξύ των δύο ομάδων χωρών. Χρησιμοποιήστε θηκογράμματα για την γραφική αναπαράσταση.

b) Με τον ίδιο τρόπο να εργαστείτε για να συγκρίνετε τα θύματα ανά κάτοικο με το ποσοστό του γηρασμένου πληθυσμού (PercentOver65) και την διάμεση ηλικία (median Age)

c) Τον αριθμό κρεβατιών νοσοκομείου ανά χίλιους κατοίκους (HospitalBeds/1000).

[4 μονάδες]

3. Η πρώτη μέρα με καταγεγραμμένο θύμα σε κάθε χώρα είναι διαφορετική. Το πόσο καθυστερεί να εμφανιστεί το πρώτο καταγεγραμμένο θύμα είναι δηλωτικό της ταχύτητας με την οποία η πανδημία εξαπλώθηκε στον κόσμο. Να προσπαθήσετε να συσχετίσετε τον χρόνο που καθυστέρησε να εμφανιστεί το πρώτο κρούσμα σε κάθε χώρα με όλους τους παράγοντες που έχουν να κάνουν με την γεωγραφική και οικονομική συνδεσιμότητα/απομόνωση της κάθε χώρας. Αυτά είναι: η πληθυσμιακή πυκνότητα, οι αεροπορικοί επιβάτες ανά κάτοικο, τα μήκη σιδηροδρόμων και ακτογραμμής ανά τετραγωνικό χιλιόμετρο και οι εισαγωγές ανά κάτοικο (σε δολλάρια). Μπορείτε να εργαστείτε είτε υπολογίζοντας συσχετίσεις, ή με τη λογική του ερωτήματος 2 (διάκριση σε δύο ομάδες και σύγκριση με θηκογράμματα)

[3 μονάδες]


Γ. ΠΩΣ ΘΑ ΕΤΟΙΜΑΣΕΤΕ ΤΗΝ ΑΝΑΦΟΡΑ ΣΑΣ

Tα αποτελέσματα των αναλύσεών σας, οι πίνακες και οι γραφικές παραστάσεις που θα δημιουργήσετε, οι εντολές που θα χρησιμοποιήσετε καθώς και το κείμενο στο οποίο θα περιγράψετε την μεθοδολογία και τα συμπεράσματά σας θα πρέπει να ενσωματωθούν σε μία τελική αναφορά δηλαδή σε ένα (1) αρχείο μορφής pdf, το οποίο θα ονομάσετε με βάση το παρακάτω παράδειγμα: ONOMA_EPWNYMO_AM.pdf, δηλαδή με λατινικούς χαρακτήρες και underscore ( _ ) ανάμεσα στα στοιχεία σας.

Σημειώστε ότι μια σωστή γραπτή αναφορά περιέχει τον σκοπό της μελέτης, την περιγραφή της μεθοδολογίας, τα αποτελέσματα και τη συζήτησή τους. Τυχόν πηγές πληροφοριών που χρησιμοποιήθηκαν θα πρέπει να αναφέρονται ρητά για την αποφυγή λογοκλοπής.

Μην ξεχάσετε να συμπεριλάβετε τα προσωπικά σας στοιχεία και στην επικεφαλίδα της αναφοράς σας εκτός από το όνομα του αρχείου.

Δεν υπάρχει όριο σελίδων/λέξεων για την αναφορά αλλά προσπαθήστε να αποφύγετε πλατειασμούς και επαναλήψεις.

Αφού έχετε ετοιμάσει το τελικό αρχείο θα μεταβείτε στο σύνδεσμο:

https://www.dropbox.com/request/cqb6yrMBgMryC2ELmYJI

και θα ανεβάσετε το αρχείο της αναφοράς σας μέχρι την Κυριακή 20 Σεπτεμβρίου και ώρα 23.59.

Καλή Επιτυχία!