通過前幾課的學習,我們已經學會了【采集單條數據】、【多條列表數據】、【表格數據】及點擊鏈接進入【詳情頁數據?!咳粘2杉瘮祿r,網頁上不止一頁數據,都會有很多頁,下面我們學習如何設置分頁數據,采集多頁多條數據?
首先介紹常見的幾種分頁類型,以及如何用爬山虎采集分頁的方法。
一、自動識別分頁
爬山虎可以識別90%的分頁元素
操作如下:通過選擇分頁設置
- 自動識別分頁
,識別成功后,提示已識別到分頁元素
。
操作流程如下:
二、手動設置分頁
有少部分網站,自動識別分頁不成功,這時候就需要我們手動去設置分頁。 手動分頁分二步:
01:選擇分頁設置
- 手動設置分頁
02:點擊選擇分頁元素
在瀏覽器中找到下一頁元素
并點擊
操作流程如下:
三、瀑布流分頁
日常采集中,我遇到很多網頁都是用了瀑布流分頁
技術,比如百度圖片、知乎、今日頭條,這類型網頁,隨著鼠標向下滑動,不斷加載新的數據.
操作如下:選擇分頁設置
- 瀑布流分頁
采集器會自動滾到網頁,直到分頁完成。
四、瀑布流+分頁頁碼的組合形式
日常采集中,有少部分網站分頁比較特殊,比如向下滾動5次后,才會展示分頁頁碼。這時我們就需要使用
瀑布流+分頁頁碼
的形式來完成分頁設置。
如何判斷瀑布流分頁?
下面以京東商品搜索為例。
在起始頁輸入框
中輸入目標網址,點擊下一步
,爬山虎自動識別商品列表(注:本站需要登陸,點擊登陸后,直接關閉即可)。
可以看出爬山虎第一頁自動識別30個商品列表,但第一頁實際有60個商品列表,下面在爬山虎中滾動商品列表從頂部直至底部,刷新后查看列表數據,可以看到60個商品列表全部識別,由此可以判斷這就是瀑布流加載。
如何設置瀑布流+分頁頁碼?
使用腳本命令
手動添加一個滾動命令
,具體設置滾動幾頁、滾動間隔時間,需要針對具體網站進行測試。
下面京東商品搜索為例: https://search.jd.com/Searchkeyword=%E5%BE%AE%E6%B3%A2%E7%82%89&enc=utf-8&suggest=4.his.0.0&wq=&pvid=2d6c994230244efaa9d62e1f120c9da4
Step1: 分頁設置
-瀑布流分頁
Step2:點擊腳本命令
-添加命令
-滾動
(注:通過不斷的調整測試,具體設置滾動幾頁、滾動間隔時間,需要針對具體網站進行測試。最終目的是滾動整頁,從頂部滾動到底部)
3:設置
在其他設置
中,勾選在分頁上執行采集腳本
這樣在每次打開分頁后,都會執行滾動命令。
通過以上操作,一個完整的瀑布流+分頁頁碼
的組合形式,我們就設置完成。
人性化設置:
1、設置采集最大分頁
此設置廣泛應用在更新采集時,非常方便,比如網站每天更新的內容都在前3頁中,我們就可以設置最大分頁為 3頁,這樣爬山虎就采集更的前3頁數據,節約時間,精準采集。
2、加載更多形式
有些網站下一頁會使用加載更多
這樣的按鈕,點擊才會展示更多數據。 采集這種類型的頁面,我們需要手
動設置分頁, 把加載更多
當作下一頁
按鈕來點擊即可。
通過本講學習,我們掌握了爬山虎三種分頁類型,自動識別分頁>手動設置分頁>瀑布流分頁,這三種類型99% 覆蓋全網分頁元素。