Dalam proyek ini, data pipeline yang telah kami bangun berhasil menggabungkan dua sumber data utama, yaitu data cuaca dan data sosial media (Twitter), untuk menganalisis hubungan antara kondisi cuaca dan tweet yang berhubungan dengan fenomena cuaca tertentu seperti hujan, mendung, dan panas. Melalui serangkaian tahap ETL yang meliputi ekstraksi data, pembersihan data, dan analisis, kami berhasil mengidentifikasi korelasi yang signifikan antara beberapa variabel cuaca dan volume tweet terkait.
Variabel: Poin embun (dew points), kecepatan angin, dan presipitasi menunjukkan tren positif terhadap jumlah tweet terkait hujan.
Observasi Utama: Peningkatan presipitasi diikuti oleh meningkatnya jumlah tweet tentang "hujan," kemungkinan karena orang cenderung mengekspresikan pengalaman atau perhatian mereka saat hujan. Poin embun dan kecepatan angin berkorelasi positif dengan tweet tentang hujan. Poin embun tinggi menandakan kelembapan yang memicu hujan, yang menjadi perhatian publik.
Pola Potensial: Faktor cuaca langsung memengaruhi keterlibatan pengguna di media sosial terkait hujan.
Variabel: Tutupan awan (cloud cover) dan suhu (temperature).
Observasi Utama: Tutupan awan berkorelasi positif dengan tweet yang menyebutkan "mendung." Semakin banyak tutupan awan, tweet cenderung meningkat meski dalam skala kecil, menunjukkan perhatian masyarakat pada kondisi langit yang mendung. Korelasi yang lemah mengindikasikan bahwa kondisi mendung saja tidak cukup kuat memicu keterlibatan online, kecuali digabungkan dengan fenomena cuaca signifikan lainnya.
Pola Potensial: Langit mendung menjadi perhatian masyarakat tetapi tidak terlalu dominan sebagai pemicu diskusi publik.
Variabel: Suhu dan kelembapan (humidity).
Observasi Utama: Suhu yang tinggi memicu lebih banyak tweet tentang "panas," mencerminkan ketidaknyamanan atau kesadaran yang lebih tinggi selama hari-hari yang panas. Kelembapan menunjukkan tren negatif dengan tweet tentang panas, mungkin karena panas kering lebih terasa dibandingkan panas lembap.
Pola Potensial: Suhu ekstrem, terutama panas kering, mendorong lebih banyak interaksi online, menunjukkan sensitivitas publik terhadap ketidaknyamanan.
Namun, meskipun data pipeline berhasil melakukan analisis ini dengan baik, kami menghadapi beberapa keterbatasan dalam hal ketersediaan data dan kedalaman analisis. Data yang kami gunakan tidak cukup lengkap dan tidak mencakup sejumlah faktor penting yang diperlukan untuk membuat model prediktif yang lebih kuat. Keterbatasan data ini membatasi kemampuan kami untuk membangun model prediktif yang akurat dalam memprediksi pola perilaku pengguna media sosial berdasarkan kondisi cuaca.
Dengan adanya keterbatasan data dan analisis yang masih dapat dikembangkan lebih lanjut, saat ini kami belum dapat menyelesaikan tahap prediktif modeling. Namun, data yang ada sudah cukup untuk memberikan wawasan tentang hubungan antara cuaca dan aktivitas pengguna di media sosial.
Proyek ini berhasil membangun dan menjalankan Data Pipeline yang mengintegrasikan data cuaca dan data Twitter menggunakan Airflow dan Jupyter Notebook. Kami berhasil mengekstrak, mengolah, dan memvisualisasikan data cuaca menggunakan ETL dari Weather API, serta mengumpulkan dan memproses data Twitter melalui ELT untuk menganalisis hubungan antara kondisi cuaca dan volume tweet terkait. Semua proses ini berjalan otomatis dan efisien, memungkinkan analisis data dalam waktu nyata.
Dengan pendekatan ini, kami dapat mengidentifikasi korelasi antara variabel cuaca (seperti suhu, kelembapan, dan presipitasi) dan tweet yang relevan. Namun, meskipun pipeline ini berhasil, pengembangan lebih lanjut diperlukan untuk menciptakan model prediktif yang lebih akurat. Proyek ini menunjukkan keberhasilan dalam pengolahan dan analisis data, dan dapat diperluas untuk memberikan wawasan yang lebih mendalam dalam prediksi keterlibatan media sosial berdasarkan kondisi cuaca.