日常采集HTML標簽時,一些多余標簽嵌入在文本中,可以通過該功能,可以移除掉指定的HTML標簽。
比如:去掉a、img、div、span、br、ol、ul、li 、em
標簽等等。
下面以采集頭條文章為例:
采集地址:https://www.toutiao.com/a6947999697642455588
我們需要清除里面所有的span
標簽
具體操作如下:
-
Step1:文本轉換HTML格式 選中整篇文章,右擊字段
設置取值屬性
-InnerHTML
-
Step2:清除HTML標簽 右擊字段
數據處理
-新建
-清除HTML標簽
-選擇span
標簽
示例展示:
可以看出,上圖標出的span
標簽全部清除了,此功能常用于采集html格式。