Python搭配Googlesheet做網路資料的爬取和儲存,算是一套很容易上手學習,且對於很需要將網路數據或資料自動化管理的神來說,是非常有省時有效的管理. 由於我個人需要定期的在網路上抓取一些投資需要觀察的數據,但一筆一筆手動輸入真的會非常費時耗力,因此我一邊滿足需要,也滿足個人對於學習程式開發的興趣,整理了下面這套程式碼,希望對需要把資料做定期整理的朋友們有幫助。
這個主題的目標是要使用Python從網路上下載資料後(如excel 檔案),將資料寫入Google Sheet。省去每次使用者需要登入Google帳號密碼的繁瑣流程,同時可以將網路上的資料下載後寫入Googlesheet,讓資料處理更直接容易,並且如果下載的路徑是固定,但資料會更新的話,用這樣的功能更是方便。我個人是用來下載某些股票標的或經濟數據,用來做日內或周內更新到googlesheet,再透過Googlesheet整理成我需要的表格數據後,重新排版更新在網路上,供應我隨時查看數據。這邊的內容部分參考自這裡。
要完成這個目標,總共有五件事 :
1. 啟用Google Sheet API
2.建立API 憑證
3.建立Google Sheet檔案
4. 串接Python 網頁爬蟲到Google Sheet
5.將Python爬到的資料數據儲存寫入建立好的Google Sheet中
首先我們會用到Googlesheet,肯定就會有所謂的Google帳號,當我們要使用Google提供的各類服務如Gmail,Google sheet,一定必須得先登入Google帳號。進入Gmail、Google sheet等應用程式,會需要先進入所謂的Google API ,API (Application Programming Interface,應用程式接口) ,API要深入說明可以寫一篇文章講述,用我簡單粗暴的理解方式,就是類似登入Google的帳號密碼後才能開始使用Google的相關服務,換句話說,每個軟體平台都會有自己的程式定義方式還有協議,登入了這個平台需要的帳號密碼,就可以使用他們這些軟體平台的功能。
不囉嗦,就先來建立一個Google Sheet API專案