抓包獲取網址
首先,我們需要通過抓包獲取到ajax的請求地址。
使用谷歌瀏覽器打開 https://www.zhihu.com/question/286619877 ,在瀏覽器中,按下 F12
,會出現開發者工具,選擇 Network
。
然后,在瀏覽器中把滾動條拖到底部??梢钥吹秸埱蟮逆溄?,answers...開頭的就是我們需要的請求。
選中,在右側可以查看 json 數據預覽。
找到請求后,選中請求,然后右擊,選擇Copy
-> Copy request headers
。
創建采集任務
在復制了 request headers
后,我們打開采集器,新建一個任務。
首先,在第一步,勾選POST 請求
,然后點擊從剪切板粘貼 Headers
,粘貼完成之后,取消勾選POST 請求
。
然后選擇 Url 編碼
為UTF-8。
然后點擊下一步,在第二部,我們切換到JSON 引擎
。
接下來,我們點擊列表模式
下的選擇列表
。
然后我們 就可以添加需要抓取的字段了。點擊添加字段
,然后在JSON樹中點擊需要抓取的數據節點。
到這里我們就完成了單頁數據的抓取設置。
批量生成分頁
下面我們在回到第一步,來設置采集分頁的參數。
選中offset=后面的8,會彈出批量生成網址窗口,這里我們設置最大100,步長為5。(最多采集100條,這里可以自己定義修改)
最后,一直下一步,然后完成,然后我們可以點擊 開始
,來運行采集。