在正常情況下,在采集數據時,采集器會自動過濾重復數據,過濾條件是所有字段的數據都一樣的話,就會被過濾。
重復數據有兩種情況:
1. 數據重復
針對數據重復的情況,可以添加一個字段,設置自定義值
,選擇當前時間
2. 深入采集URL重復
如果在采集的時候,日志提示"深入采集的URL重復被過濾",可以通過對URL字段加上額外參數,使其不重復。
點擊URL字段的數據處理
,添加前后綴
,設置后綴字符
當然,我們需要根據URL的具體情況,設置不同的參數,分為2種情況
- URL中不包含
?
,添加后綴字符?t={時間戳13}
- URL中包含
?
,添加后綴字符&t={時間戳13}