取值屬性
首先,字段通過 XPath 定位查找到 Html 元素,然后我們就需要通過取值屬性 來確定 Html 元素的哪個部分來作為字段值。
一般情況下,采集器默認使用 InnerText 屬性(當前節點以及其子節點的文本)
除了 InnerText,還有其以下內置屬性:
- Text ,表示當前節點的文本
- InnerHtml,表示當前節點內部的 HTML 語句(不包括當前節點)
- OuterHtml,表示當前節點的 HTML 語句
常用的屬性還有:
- href,表示鏈接地址(A標簽<a)
- src,一般表示圖片地址(IMG標簽<img)
- class,表示樣式(css)
- data-*,表示一些數據類型
除了內置屬性外,用戶可以手動填寫 HTML 屬性。
*特別提示:這里是可以手動輸入屬性名稱,即使下拉選項中沒有。比如常見的onclick、value、class。