取值屬性

首先,字段通過 XPath 定位查找到 Html 元素,然后我們就需要通過取值屬性 來確定 Html 元素的哪個部分來作為字段值。

attr

一般情況下,采集器默認使用 InnerText 屬性(當前節點以及其子節點的文本)

除了 InnerText,還有其以下內置屬性:

  • Text ,表示當前節點的文本
  • InnerHtml,表示當前節點內部的 HTML 語句(不包括當前節點)
  • OuterHtml,表示當前節點的 HTML 語句

常用的屬性還有:

  • href,表示鏈接地址(A標簽<a)
  • src,一般表示圖片地址(IMG標簽<img)
  • class,表示樣式(css)
  • data-*,表示一些數據類型

除了內置屬性外,用戶可以手動填寫 HTML 屬性。

*特別提示:這里是可以手動輸入屬性名稱,即使下拉選項中沒有。比如常見的onclick、value、class。