1.爬蟲知識

一、爬蟲知識

爬蟲? 這不是在看動物星球，而是一種利用HTTP Request 抓取網路資料的技術。想想看如果你要做個比價網站或資料分析，但苦無資料的時候，又來不及跟別人談資料交換或合作時，就可以利用這種技術將別人的資料庫變成自己的資料庫，聽起來很迷人嗎？趕快來了解一下。

Python 非常適合用來開發網頁爬蟲，理由如下：

1、抓取網頁本身的接口

相比與其他靜態程式語言，如 java ， c#， c ++， python 抓取網頁文檔的接口更簡潔；相比其他動態腳本語言，如 perl ， shell ， python 的 urllib 包提供了較為完整的訪問網頁文檔的 API 。（當然 ruby 也是很好的選擇）

此外，抓取網頁有時候需要模擬瀏覽器的行為，很多網站對於生硬的爬蟲抓取都是封殺的。這是我們需要模擬 user agent的行為構造合適的請求，譬如模擬用戶登陸、模擬session/cookie的存儲和設置。在python里都有非常優秀的第三方包幫你搞定，如Requests，mechanize。

2、網頁抓取後的處理

抓取的網頁通常需要處理，比如過濾 html 標籤，提取文本等。 python 的 beautifulsoap 提供了簡潔的文檔處理功能，能用極短的代碼完成大部分文檔的處理。

開始使用Python 撰寫網路爬蟲( Crawler )，首先必須安裝用Python 的套件管理工具pip 安裝兩個套件： Requests 網路資源(URLs)擷取套件以及 BeautifulSoup4 HTML剖析套件。

回首頁 << 上一頁下一頁 >> 最新訊息

聯絡電話:123456 傳真:XXXXXXXX 聯絡地址:XXXXXXXXX

Page updated

Google Sites

Report abuse