Apa yang akan dipelajari :
a. Siswa menjelaskan cara pengumpulan data secara online
b. membuat program pengumpulan data secara otomatis, misalnya menggunakan web scraping
c. Siswa menyimpan data hasil koleksi
d. Siswa menjelaskan aspek privasi dan keamanan datanya
Aktivitas AD-03-Proyek Web Scrapping
Dalam pembelajaran berikut ini siswa akan melakukan praktek mengumpulkan data secara online dari situs website, yang dikenal dengan istilah web scrapping.
Untuk melakukan scraping website ada banyak cara yang bisa dilakukan, seprti dengan menggunakan python, Google Colabs , dan aplikasi atau alat bantu lainnya. Dalam pembelajaran pada materi ini kita akan menggunakan alat bantu dari Extension Browser Chrome karna mudah digunakan, aplikasinya ringan, serta tidak memerlukan coding yang ribet.
Seperti terlihat pada gambar disamping, untuk memulai langkah kerja dalam web scrapping bisa dimulai dengan melakukan Istalasi Web Scrapper Extension pada browser Chrome. Kemuadian memilih Target websitenya, membangun selector, melakukan scrapping dan export hasil datanya kedalam file excel.
Berikut langkah kerja detailnya:
a. Buka browser chrome
b. Ketikkan di kolom pencarian "web scraper" atau klik link
c. klik "add to chrome" (tambahkan ke Chrome)
d. Tunggu sampai selesai lalu reload browser anda.
Setelah extension Web Scrapper terinstal, langkah berikutnya adalah memilih target website yang akan di scrapper. Kita akan mencoba mengambil data dari sebuah toko buku online. Silahkan klik link nya pada button disamping. ⬅️
Setelah Halaman Website target berhasil dibuka, lakukan langkah berikut:
Klik kanan sembarang pada halaman website sampai muncul pilihan menu, lalu
Pilih "inspect" berada pada bagian paling bawah menu, lalu klik kiri
klik kiri pada extension "Web scrapper sampai terbuka layar sepertigambar disamping.
klik kiri "create New Sitemap
Isi Sitemap name dengan = BukuKita
isi Star URL 1 dengan mengkopi pastekan link dari website toko buku:
https://www.bukukita.com/katalog/10-komputer-dan-internet.html
klik kiri Create Sitemap
Setelah Sitemap berhasil dibuat, pastikan di aplikasi webscrapper terdapat tulisan "-root". Kemudian klik kiri pada menu Add new selector. lalu isi data yang diperlukan
klik kiri Add new selector lalu isi data yang diperlukan:
id : Pages
Type : Link
Selector : select
Multiple : centang
Parent Selectors : _root
Klik kiri nomor halaman 2, lalu klik kiri nomor halaman 3. pastikan semua nomor halaman terblok dengan warna merah.
klik kiri Done Selecting.
klik kiri save selector
Setelah ID Pages selesai dibuat, selanjutnya kita akan membuat ID untuk Link. Berikut Langkah kerjanya:
Dobel klik kiri pada menu bar 3 buah pada aplikasi web scrapper.
klik kiri Add new selector lalu isi data yang diperlukan:
id : Link
Type : Link
Selector : select
Multiple : centang
Parent Selectors : Pages
Di halaman Website, klik kiri pada buku pertama, lalu tekan ctrl, tahan dan klik kiri lagi pada buku kedua. pastikan semua link informasi buku terselect degan warna merah seperti pada gambar.
klik kiri Done Selecting.
klik kiri save selector
Selanjutnya kita akan melakukan proses pengambilan informasi yang dibutuhkan dari buku, seperti Judul, Penulis, Penerbit, Harga, dan lain-lain. Langkah beikut ini.
Klik kiri pada link informasi tentang buku, tunggu sampai halaman terbuka. seperti terlihat pada gambar.
Kembali ke aplikasi web scrapper, dobel klik kiri bar 3 buah pada ID Link
klik kiri Add new selector lalu isi data yang diperlukan:
id : Judul
Type : Text
Selector : select
Multiple : Tidak Dicentang
Parent Selectors : Link
Select text judul dengan klik kiri hingga berwarna merah
klik kiri Done Selecting.
klik kiri save selector
Lakukan halnya sama untuk membuat ID selector untuk Penulis, Penerbit, dan Harga. Apbila Sudah Selesai Akan tampak seperti gambar dibawah ini.
*Kamu bisa saja menambahkan selektor lainnya jika dibutuhkan*.
Selector grap digunakan untuk mengecek apakah alaur yang dikerjakan sudah benar atau belum sebelum dilakukan proses penarikan data scrapping. Lakukan langkah berikut ini untuk mengeceknya :
Klik kiri Sitemap BukuKita ➡️Selector graph➡️_root➡️Pages➡️Link🔀Judul;Penulis;Penerbit;Harga
Seperti terlihat pada gambar disamping
Scraping merupakan proses penarikan data dari halaman website. Langkah kerjanya adalah :
Klik kiri pada Sitemap BukuKita➡️Scrape
Atur interval dan delay
Request interval (ms): 2000
Page Load delay (ms): 2000
**Jika komputer mengalami kendala dalam penarikan data , Interval dan delay bisa diatur sesuai dengan spesifikasi kemampuan komputer.
klik kiri Star scraping
Selama proses penarikan data halaman website akan melakukan loading dan terbuka otomatis. Tunggu hingga proses penarikan data selesai.
Setelah proses penarikan data selesai. langkah selanjutnya adalah menyimpan data kedalam file excel. ikuti langkah kerja berikut ini.
klik kiri refresh sampai data scrapping tambil di aplikasi
klik kiri pada sitemap BukuKita➡️Export data➡️Download as .XLSV➡️Pilih lokasi peyimpanan data➡️save
Tunggu download selesai➡️buka data excel➡️enable editing➡️edit data➡️Delete kolom yang tidak diperlukan➡️rapikan menjadi tabel dengan border
selesai