數據處理中,除了前面4節學習的4大常用功能,還有其它功能,下面我們來逐一介紹。
1.移除首尾空白符
以下圖為例:移除標紅字段間的空白符
選中該字段數據處理
-新建
-移除首尾空白符
確定后,可以看到該字段恢復正常狀態
2.字符映射
對字段內容進行批量替換。
應用場景,將目標網站的分類、欄目映射為自己網站的分類。
比如把a,b,c
映射為1,2,3
, 輸入格式一行一條,查找和替換值之間用英文逗號分隔。
格式參考:
3.字符轉碼
包含了常見的HTMLEncode
,HTMLDecode
,UrlEncode
,UrlDecode
,JSEncode
,JSDecode
, Base64
等轉碼形式。
-
ToDate
為新增類型,可以轉換時間戳為指定時間格式,可以從內容中提取去日期,并且格式化。 -
HTMLToUBB
將HTML格式轉換為UBB代碼(一種論壇格式代碼) -
HTMLToPlainText
將HTML代碼轉換為文本格式,并且保留格式(p、br、li等塊標簽替換為換行)
字符編碼分類:
UTF-8
和GB2312
4.設置默認值
- 應用前提:需要添加字段,點擊空白字段設置。
- 應用場景:常用在備注,或者采集不得重復上。
共有三種類型:當前時間
、隨機字符
、字段
- 當前時間:
完整時間格式
、日期格式
、時間戳10
、時間戳13位
- 隨機字符:
隨機3位數據
、隨機2位字母
、隨機3至6位數字和字母
、隨機字符xxx+3到6位數字和字母
- 字段:
title
根據需求,可以選擇不同類型的表達方式。
5.日期提取
日常采集中,少部分字段,數字嵌入在文本內,這時就到此項功能一鍵提取日期,
附加功能:提取數字
和提取郵箱
以下圖為例:
我們要提取購買來源
字段中,數字部分即單價。
選中字段數據處理
-新建
-日期提取
-提取數字
確定后,可以看到有單價數字部分已經提取出來了
6.HTTP請求
HTTP請求 可以構造一個HTTP請求(支持POST,可以引用其他字段值),并將請求的響應作為處理結果。
7.正文提取
通過正文提取算法,將頁面中的正文和標題自動識別并提取,適用于一般的新聞、文章頁面。 可以選擇提取標題
或提取正文
,以及是否提取A標簽、圖片標簽等。
- 提取標題
以下面為例:提取作者簡介
字段中小說標題部分
選中該字段右擊數據處理
-正文提取
-提取標題
通過地址欄可以看到該地址小說標題名稱
確定后,即可看到標題與地址顯示相同
提取正文
以上圖片為例:提取作者簡介
字段中正文部分
選中該字段右擊數據處理
-正文提取
-提取正文
確定后,即可看正文部分已被提取出來
8.執行JaveScript
運行一段JavaScript代碼,可以做一些復雜的數據處理,比如運算、字符串操作??梢砸闷渌侄沃?。
9.執行C#代碼
通過 C# 代碼對當前字段內容進行處理。 函數參考: string Run(string content)
,其中content參數為當前
字段的內容,返回值為處理后的結果,字符串類型。
比如 return content.Length.ToString()
,結果是當前字符串的長度。