創建第一個采集任務
首先,打開爬山虎采集器,點擊主界面的新建任務按鈕
第一步、選擇起始網址
當你想要采集一個網站數據時,首先需要找到一個展示數據列表的地址。 這一步,至關重要,起始網址決定了你采集的數據數量和類型。
以大眾點評為例,我們想要抓取當前城市的美食
類的商家信息,包括店名、地址、評分等等信息。
通過瀏覽網站,我們找到所有美食類的商家列表地址: http://www.dianping.com/search/category/110/10
然后在爬山虎采集器V2中 新建任務
-> 第一步
-> 輸入網頁地址
然后點擊下一步
。
第二步、抓取數據
進入到第二步后,爬山虎采集器會智能分析網頁,并且從中提取出列表數據。 如下圖:
這時,我們對已經分析出的數據進行整理修改, 比如刪掉無用的字段。
點擊列的下拉按鈕,選擇 刪除字段
。
當然還是其他操作,比如修改名稱
,數據處理
等等。這些我們將在后面的文檔中介紹。
在整理修改字段后,我們來采集處理分頁。
選擇分頁設置
->自動識別分頁
,程序將會自動定位下一頁
元素。
完成之后,點擊下一步
。
第三步、設置
這里包括對瀏覽器的配置,比如禁用圖片、禁用JS、禁用Flash、攔截廣告等等操作??梢酝ㄟ^這些配置提高瀏覽器的加載速度。
計劃任務的配置,通過計劃任務,可以設置任務定時自動運行。
點擊
完成
,保存任務。
完成,運行任務
任務創建完成之后, 我們選擇剛剛新建的任務,點擊主界面工具欄 開始
按鈕。
任務運行窗口,任務運行日志,記錄詳細采集日志信息。
已采集數據窗口,實時顯示已采集的數據