JSON數據采集

使用爬山虎采集器可以采集JSON格式數據,使用JSON引擎可以大大提高采集效率,并且JSON格式數據一般不需要二次處理,數據干凈、整潔。

如何采集JSON數據?

前提,一般需要通過瀏覽器抓包找到JSON數據的請求地址(URL),用瀏覽器自帶的調試工具(F12)或者Fiddler都可以實現抓包。

首先,在爬山虎采集器中,新建任務,把找到JSON的請求地址復制到起始地址中。 JSON

然后,點擊下一步進入到抓取數據頁,設置引擎為JSON引擎。 JSON

如果要抓取的JSON數據是一個列表,則設置模式為列表模式。 在列表模式下,我們點擊選擇列表。 JSON

然后,添加字段,點擊需要抓取的一個屬性節點。 JSON

以此類推,新建其他字段。

JSON的頭信息驗證

在部分JSON請求中,Http header中會有一些驗證信息,比如Authorization,必須要加上這些頭信息才能獲取到數據。 先通過抓包工具獲取,然后在復制到采集器中。 JSON

JSON的分頁采集

一般JSON請求的分頁參數都是在請求地址中,類似參數如page,pn,p,通過抓取工具可以分析得到。 在通過分析出分頁參數的構成后,我們在第一步中,來通過采集器中的批量生成網址來構建分頁請求。 JSON