日常采集中,部分網站,比如每天更新10頁數據,我們需要采集前10頁最新的數據,這時就可以通過設置分頁 參數,采集最新數據,無需重復采集歷史數據,節約時間,提高工作效率。
如何批量生成分頁參數?
我們以百度搜索為例,采集百度關鍵詞為test
的,前10頁的數據。
首先我們找到百度的分頁參數為pn
,起始為0
,每頁的步長為10
。
第一步:輸入網址
采集的網址:https://www.baidu.com/s?wd=test&pn=0
第二步:選中起始頁0
,彈出生成網址參數窗口,選擇遞增數字
第三步:設置起始為0
,結束為100
,步長為10
,點擊確定
。
確定后,可以看到最終生成網址為:
https://www.baidu.com/s?wd=test&pn=[0-100/10]
完整的操作流程如下:
啟動采集后,將采集前10頁的數據。