在爬山虎采集器中,可以通過自定義廣告屏蔽,來加快采集速度。
具體語法參考 AdBlock Plus 過濾規則 ,規則為一行一個。
最常用的就是使用通配符,在指定字符前后加星號 *
技巧
一般我們在采集時,注意觀察運行日志,如果出現了如下提示:
頁面加載超過 30 秒限制. 超時請求: Transferring data from ih1.redbubble.net…
我們可以添加規則:*ih1.redbubble.net*
,過濾掉所有包含 ih1.redbubble.net 的請求,這種請求一般是外站圖片、或者js請求。
注意:不要屏蔽你采集的網站主域名,比如你要采集 https://www.baidu.com/s?wd=x
,卻加上規則 *www.baidu.com*
,這樣的話,可能就采集不到數據。