通常采集列表數據時,都會有分頁,如何采集分頁中的數據呢?在爬山虎采集器中,我們可以采集以下幾種分頁類型
1. 自動識別分頁
爬山虎采集器可以識別90%的分頁元素,通過選擇分頁設置
->自動識別分頁
。
2. 手動設置分頁
當不能自動識別時,我們就需要手動設置分頁。如何手動設置分頁?
- 首先選擇
分頁設置
->手動設置分頁
, - 在點擊
選擇分頁元素
,在瀏覽器中找到下一頁
元素并點擊。
3. 瀑布流分頁
現在很多網頁都是用了瀑布流分頁技術,比如百度圖片、知乎、今日頭條,這類型網頁,直接選擇瀑布流分頁。 采集器會自動滾到網頁,直到分頁完成。
4. 瀑布流+分頁頁碼的組合形式
有部分網站,會使用瀑布流+分頁頁碼的形式來展示,比如向下滾動5次后,才會展示分頁頁碼。 步驟如下:
- 使用腳本命令,手動添加一個
滾動命令
,具體設置滾動幾頁、滾動間隔時間,需要針對具體網站進行測試。 - 第三步設置,在
其他設置
中,勾選在分頁上執行采集腳本
,這樣在每次打開分頁后,都會執行滾動命令。
加載更多形式
有些網站會使用加載更多這樣的按鈕,點擊才會展示更多數據。 采集這種類型的頁面,我們需要手動設置分頁
, 把加載更多當作下一頁按鈕來點擊。
設置采集最大分頁
可以設置要采集的最大分頁數量。這在更新采集時,非常必要。比如每天網站更新的內容都在前3頁中,我們就可以設置最大分頁為3頁。