| 回首頁 | 最新訊息 | Python 程式技巧 | 相關訊息 |
一、爬蟲知識
爬蟲? 這不是在看動物星球,而是一種利用HTTP Request 抓取網路資料的技術。想想看如果你要做個比價網站或資料分析,但苦無資料的時候,又來不及跟別人談資料交換或合作時,就可以利用這種技術將別人的資料庫變成自己的資料庫,聽起來很迷人嗎?趕快來了解一下。
Python 非常適合用來開發網頁爬蟲,理由如下:
1、抓取網頁本身的接口
相比與其他靜態程式語言,如 java , c#, c ++, python 抓取網頁文檔的接口更簡潔;相比其他動態腳本語言,如 perl , shell , python 的 urllib 包提供了較為完整的訪問網頁文檔的 API 。(當然 ruby 也是很好的選擇)
此外,抓取網頁有時候需要模擬瀏覽器的行為,很多網站對於生硬的爬蟲抓取都是封殺的。這是我們需要模擬 user agent的行為構造合適的請求,譬如模擬用戶登陸、模擬session/cookie的存儲和設置。在python里都有非常優秀的第三方包幫你搞定,如Requests,mechanize。
2、網頁抓取後的處理
抓取的網頁通常需要處理,比如過濾 html 標籤,提取文本等。 python 的 beautifulsoap 提供了簡潔的文檔處理功能,能用極短的代碼完成大部分文檔的處理。
開始使用Python 撰寫網路爬蟲( Crawler ),首先必須安裝用Python 的套件管理工具pip 安裝兩個套件: Requests 網路資源(URLs)擷取套件 以及 BeautifulSoup4 HTML剖析套件。
聯絡電話:123456 傳真:XXXXXXXX 聯絡地址:XXXXXXXXX