通過學習【第02節采集單條數據】:采集單條數據中,我們學習了如何從單個網頁抓取文本、圖片、超鏈接等。對爬山虎"自定義采集"采集數據有了初步了解。本課將繼續深入學習如何采集多個列表中的數據。
下面以豆瓣網圖書列表為例:https://book.douban.com/chart?subcat=I
打開網頁,可以看到很多結構相同的圖書列表,每個圖書列表中有同樣的字段:圖書標題、出版信息、評分、評價人數、圖書簡介等。
我們將上述網頁上多個列表中的字段,按照網頁排列順序依次采集下來,保存為Excel等結構化的數據,如下圖所示:
下面我們來學習,在爬山虎中如何操作如下: 實例地址:https://book.douban.com/chart?subcat=I
采集列表數據二種方法:
方法一:智能識別
在列表型的網頁,爬山虎支持智能識別,自動識別列表數據。使用智能識別,只需輸入網址,就能自動獲取列表數據。
具體操作如下:輸入網址
- 在起始頁
輸入框
中輸入目標網址,點擊下一步
,爬山虎自動打開網頁,自動識別列表頁數據。
方法二:手動選擇列表
注:有部分網站,一個頁面有幾個列表項,爬山虎通過智能分析,自動匹配到常用列表數據,如果匹配的數據 不是我們需要的,這時,我們就要手動選擇列表。
如何手動選擇列表?
-
在起始頁
輸入框
中輸入目標網址,點擊下一步
,爬山虎自動識別列表(假設這數據不是我們需要的) -
清空所有
-列表模式/選擇列表
根據提示點擊網頁上任何一個列表元素,即可自動識別此處列表數據。
** 如何修改字段名稱?**
選中字段
/右擊
/修改名稱
三:采集數據并導出
點擊下一步
啟動采集,選擇合適的導出方式導出數據。多種格式導出(發布),包括TXT、CSV、Excel、Access
MySQL、SQLServer、SQLite以及發布到網站接口(Api),這里導出為Excel。
數據示例:
通過以上學習,我們可以使用爬山虎采集一個完整的列表數據,也可以自定義選擇列表數據。為后面的更深入的學習打了基礎。