取值屬性
首先,字段通過 XPath 定位查找到 Html 元素,然后我們就需要通過取值屬性 來確定 Html 元素的哪個部分來作為字段值。
一般情況下,采集器默認使用 InnerText 屬性(當前節點以及其子節點的文本)
除了 InnerText,還有其以下內置屬性:
- Text ,表示當前節點的文本
- InnerHtml,表示當前節點內部的 HTML 語句(不包括當前節點)
- OuterHtml,表示當前節點的 HTML 語句
- FormattedText,表示獲取當前節點的格式化文本,即在瀏覽器上顯示的文本格式,一般用在采集文章內容
常用的屬性還有:
- href,表示鏈接地址(A標簽 a)
- src,一般表示圖片地址(IMG標簽 img)
- class,表示樣式(css)
- *data-**,表示一些數據類型
除了內置屬性外,用戶可以手動填寫 HTML 屬性。
*特別提示:這里是可以手動輸入屬性名稱,即使下拉選項中沒有。比如常見的onclick、value、class。