網址參數介紹

在采集一些網站時,我們需要批量生成一批網址。 比如我們采集搜索引擎時,要許多不同關鍵詞的搜索結果;以及批量生成分頁地址。

我們以百度搜索為例,展示如何采集多關鍵詞搜索結果。

首先,第一步輸入網址 https://www.baidu.com/s?wd=test。 然后鼠標選中網址中的關鍵詞test,這時會彈出生成網址參數窗口。

urlparam

這里有3種參數類型:

  1. 遞增數字,按照給定的范圍,生成出固定步長的數字。大部分用在生成分頁地址上。
  2. 列表,這種類型是給定一些固定字符串,程序根據這些字符串集合生成網址。常常用在搜索關鍵詞、指定采集頻道、目錄。
  3. 文本文件,這種類型從指定的txt文件中讀取所有行,一行一條記錄,組成網址。常用來組合搜索的關鍵詞網址

我們選擇列表類型, 然后輸入要采集的關鍵詞,比如 a,b,c,d,e,f 。多個關鍵詞以英文逗號,分割。

點擊確定。這樣就完成了批量生成多關鍵詞的網址了。 urlparam


生成分頁參數

在上面的基礎上,我們需要針對每個關鍵詞,生成前10個分頁的地址。

首先我們找到百度的分頁參數是pn,起始為0,每頁的步長為10。

那么我們要采集的網址就是https://www.baidu.com/s?wd=test&pn=0

先選擇關鍵詞,生成關鍵詞列表。 然后選中0,選擇 遞增數字,設置起始為0,結束為100,步長為10。點擊確定 urlparam

可以看到最終的網址為https://www.baidu.com/s?wd=[a,b,c,d,e,f]&pn=[0-100/10]

從文本文件導入網址

有時我們需要從文本文件中批量導入一批網址來進行采集,如何設置?

  1. 輸入一個示例網址,比如https://www.baidu.com/。
  2. 使用鼠標,全部選中這條網址
  3. 在彈出的參數設置框,選擇文本文件類型,然后選擇包含批量網址的txt文件。

urlparam