Ποιοτικά Δεδομένα:
Ιστοσυγκομιδή

Η ιστοσυγκομιδή επιτυγχάνεται με προγράμματα υπολογιστών που εξάγουν πληροφορίες από ιστοσελίδες με μεθόδους αυτοματοποιημένης σάρωσης και επιλογής δεδομένων.

Με την R διενεργείται οποιαδήποτε ιστοσυγκομιδή. Ωστόσο, μπορούμε να πετύχουμε πολύ περισσότερα με λιγότερες γραμμές κώδικα, ταχύτερα και αποτελεσματικότερα, χρησιμοποιώντας πακέτα όπως το rvest που δημιουργήθηκε για να απλοποιήσει τις εργασίες ιστοσυγκομιδής στην R, εμπνευσμένο από βιβλιοθήκες όπως η Beautiful Soup της Python.

Ένα απλό παράδειγμα ιστοσυγκομιδής με χρήση του πακέτου rvest και του πρόσθετου SelectorGadget για την εύρεση του αντικειμένου ".quote" στην HTML της σελίδας.
Η σελίδα που εξετάζεται είναι η
https://www.gnomikologikon.gr για τον Συγγραφέα Φ. Ντοστογιέφσκι.

Αρχικά πραγματοποιείται ο ορισμός επιλεγμένου για ιστοσυγκομιδή url:

url <- 'https://www.gnomikologikon.gr/authquotes.php?auth=421'

Ακολούθως η ανάγνωση της HTML από τη σελίδα:

webpage <- read_html(url)

και γράφοντας στην κονσόλα:

>webpage

Εμφανίζεται:

{html_document}

<html lang="el">

[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">\n<title ...

[2] <body>\n<div class="upper">\r\n<div class="col1"> </div>\r\n<div class="col2" style ...

>

Ακολουθεί η αξιοποίηση του CSS επιλογέα (selector) για συγκομιδή ρητών, προβολών και αξιολογήσεων:

quote_data_html <- html_nodes(webpage,'.quote')

στην κονσόλα (οι πρώτες γραμμές του αρχείου) εμφανίζονται με:

>quote_data_html

και εμφανίζεται:

{xml_nodeset (42)}

[1] <td class="quote">Ο πολιτισμός μιας χώρας φαίνεται από το επίπεδο διαβίωσης των φυ ...

[2] <td class="quote">Χωρίς Θεό, όλα επιτρέπονται.<p class="auth4"></p>\n<br><ul class ...

[3] <td class="quote">Τίποτα πιο δύσκολο από την ευθύτητα και τίποτα πιο εύκολο από τη ...

[4] <td class="quote">Η ζωή μιας γυναίκας είναι η διαρκής αναζήτηση ενός αφέντη.<p cla ...

[5] <td class="quote">Είναι καλύτερο να είσαι δυστυχισμένος και να γνωρίζεις το χειρότ ...

Για τη μετατροπή των δεδομένων ΗΤΜL σε κείμενο εκτελείται:

title_data <- html_text(quote_data_html)

στην κονσόλα:

> title_data

για να εμφανιστεί:

[1] "Ο πολιτισμός μιας χώρας φαίνεται από το επίπεδο διαβίωσης των φυλακισμένων της.Φυλακή Πολιτισμός ★ άρεσε σε 616"

[2] "Χωρίς Θεό, όλα επιτρέπονται. Θρησκεία & Θεός Αθεΐα ★ άρεσε σε 454"

[3] "Τίποτα πιο δύσκολο από την ευθύτητα και τίποτα πιο εύκολο από την κολακεία. Έπαινος & Κολακεία ★ άρεσε σε 349"

[4] "Η ζωή μιας γυναίκας είναι η διαρκής αναζήτηση ενός αφέντη.Γυναίκα Υποταγή ★ άρεσε σε 343"

[5] "Είναι καλύτερο να είσαι δυστυχισμένος και να γνωρίζεις το χειρότερο παρά να είσαι ευτυχισμένος στον παράδεισο των ηλιθίων. Ευτυχία & Δυστυχία ★ άρεσε σε 280"


ΒΙΒΛΙΟΓΡΑΦΙΑ

Bradley, A., & James, R. J. (2019). Web scraping using R. Advances in Methods and Practices in Psychological Science, 2(3), 264-270. DOI; 10.1177/2515245919859535

Glez-Peña, D., Lourenço, A., López-Fernández, H., Reboiro-Jato, M., & Fdez-Riverola, F. (2014). Web scraping technologies in an API world. Briefings in bioinformatics, 15(5), 788-797. DOI: 10.1093/bib/bbt026

Haddaway, N. R. (2015). The use of web-scraping software in searching for grey literature. Grey J, 11(3), 186-90.

Koutsoupias, N., & Mikelis, K. (2019). Exploring International Relations Journal Articles: A Multivariate Approach. SAGE Publications Ltd. DOI: 10.4135/9781526486189

Koutsoupias, N., & Mikelis, K. (2021). Text, Content and Data Analysis of Journal Articles: The Field of International Relations. In Data Analysis and Rationality in a Complex World 16 (pp. 113-120). Springer International Publishing. DOI: 10.1007/978-3-030-60104-1_13

Munzert, S., Rubba, C., Meißner, P., & Nyhuis, D. (2014). Automated data collection with R: A practical guide to web scraping and text mining. John Wiley & Sons.

Zhao, B. (2017). Web scraping. Encyclopedia of big data, 1-3.