第一步、選擇起始網址

當你想要采集一個網站數據時,首先需要找到一個展示數據列表的地址。 這一步,至關重要,起始網址決定了你采集的數據數量和類型。

大眾點評為例,我們想要抓取當前城市的美食類的商家信息,包括店名、地址、評分等等信息。

通過瀏覽網站,我們找到所有美食類的商家列表地址: http://www.dianping.com/search/category/110/10

然后在爬山虎采集器V2中 新建任務 -> 第一步 -> 輸入網頁地址

1

然后點擊下一步。


第二步、抓取數據

進入到第二步后,爬山虎采集器會智能分析網頁,并且從中提取出列表數據。 如下圖:

2

這時,我們對已經分析出的數據進行整理修改, 比如刪掉無用的字段。

點擊列的下拉按鈕,選擇 刪除字段 。

3

當然還是其他操作,比如修改名稱,數據處理等等。這些我們將在后面的文檔中介紹。

在整理修改字段后,我們來采集處理分頁。

選擇分頁設置->自動識別分頁,程序將會自動定位下一頁 元素。

4

完成之后,點擊下一步。


第三步、設置

這里包括對瀏覽器的配置,比如禁用圖片、禁用JS、禁用Flash、攔截廣告等等操作??梢酝ㄟ^這些配置提高瀏覽器的加載速度。

計劃任務的配置,通過計劃任務,可以設置任務定時自動運行。

5 點擊完成,保存任務。


完成,運行任務

任務創建完成之后, 我們選擇剛剛新建的任務,點擊任務欄 開始。

7