網址參數介紹
在采集一些網站時,我們需要批量生成一批網址。 比如我們采集搜索引擎時,要許多不同關鍵詞的搜索結果;以及批量生成分頁地址。
我們以百度搜索為例,展示如何采集多關鍵詞搜索結果。
首先,第一步輸入網址 https://www.baidu.com/s?wd=test
。
然后鼠標選中網址中的關鍵詞test
,這時會彈出生成網址參數窗口。
這里有3種參數類型:
遞增數字
,按照給定的范圍,生成出固定步長的數字。大部分用在生成分頁地址上。列表
,這種類型是給定一些固定字符串,程序根據這些字符串集合生成網址。常常用在搜索關鍵詞、指定采集頻道、目錄。文本文件
,這種類型從指定的txt文件中讀取所有行,一行一條記錄,組成網址。常用來組合搜索的關鍵詞網址
我們選擇列表
類型, 然后輸入要采集的關鍵詞,比如 a,b,c,d,e,f 。多個關鍵詞以英文逗號,分割。
點擊確定。這樣就完成了批量生成多關鍵詞的網址了。
生成分頁參數
在上面的基礎上,我們需要針對每個關鍵詞,生成前10個分頁的地址。
首先我們找到百度的分頁參數是pn
,起始為0,每頁的步長為10。
那么我們要采集的網址就是https://www.baidu.com/s?wd=test&pn=0
先選擇關鍵詞,生成關鍵詞列表。 然后選中0
,選擇 遞增數字
,設置起始為0,結束為100,步長為10。點擊確定
可以看到最終的網址為https://www.baidu.com/s?wd=[a,b,c,d,e,f]&pn=[0-100/10]
從文本文件導入網址
有時我們需要從文本文件中批量導入一批網址來進行采集,如何設置?
- 輸入一個示例網址,比如
https://www.baidu.com/
。 - 使用鼠標,全部選中這條網址
- 在彈出的參數設置框,選擇
文本文件
類型,然后選擇包含批量網址的txt文件。