爬山虎采集器V2內置了3種引擎,瀏覽器引擎、HTTP 引擎、JSON 引擎。

engine

瀏覽器引擎,同一般瀏覽器一樣,它會加載、執行JavaScript,在采集一些動態類型、使用Ajax加載數據的網站,必須要使用瀏覽器引擎。

HTTP 引擎,它直接使用 HTTP 協議進行訪問網址。僅用于靜態網頁,或者說數據是非動態加載的網站。使用 HTTP引擎的速度非???,并且可以使用多線程,更加快了采集速度。

JSON 引擎,用于解析JSON數據,基于HTTP協議,與上面2種不同的是,在JSON 引擎下,使用JSONPath來解析數據。


你可以根據具體網頁的類型,選擇引擎。

如何確定要使用哪種引擎呢? 很簡單,當切換到 HTTP 引擎時,觀察所有字段的數據,如果有數據,且正確。那么就可以使用 HTTP 引擎 。否則就使用 瀏覽器引擎。


JSON引擎的使用場景

  1. 對于熟悉瀏覽器抓包的用戶(瀏覽器F12或者Fiddler的使用),可以嘗試分析網頁的JSON請求(AJax),來實現數據的采集。
  2. 使用JSON引擎,可以采集手機APP數據。

JSON引擎的優缺點

  • 優點:jSON數據干凈、整潔、容易處理,并且采集速度快。
  • 缺點:學習門檻較高,需要抓包分析。