一般情況下,爬山虎采集器默認使用 InnerText 屬性(當前節點以及其子節點的文本) 除了 InnerText,還有其以下內置屬性:
-
Text :表示當前節點的文本
-
InnerHtml:表示當前節點內部的 HTML 語句(不包括當前節點)
-
OuterHtml:表示當前節點的 HTML 語句
-
FormattedText:表示獲取當前節點的格式化文本,即在瀏覽器上顯示的文本格式,一般用在采集文章內容
以InnerHtml
為例:常用于采集html格式。
確定后,即可html格式
常用的屬性還有:
-
href:表示鏈接地址(A標簽 a)
-
src:一般表示圖片地址(IMG標簽 img)
-
class:表示樣式(css)
-
data:表示一些數據類型
除了內置屬性外,用戶可以手動填寫 HTML 屬性。 特別提示:這里是可以手動輸入屬性名稱,即使下拉選項中沒有。比如常見的onclick、value、class。