采集單條模式,廣泛的應用在我們日常采集中。常用于采集一般博客、新聞網站的內容頁,或者叫詳情頁面。 本節我們來講解,如何自己手動,配置一條采集規則,從最簡單的單條數據采集開始。
下面以天貓商品詳情頁為例:
采集地址:https://detail.tmall.com/item.htmspm=a230r.1.14.13.5f054068y5a13z&id=621130995681&cm_id=140105335569ed55e27b&abbucket=19&skuId=4384430176593
采集字段:文本、標題、價格,銷量,評價、圖片
等。
下面我們將上述網頁上,非結構化的文本、圖片,超鏈接等字段采集下來,保存為excel等結構化的數據, 如下圖所示:
下面我們來學習,在爬山虎中操作如下:
步驟一:創建一個新任務
在起始頁自定義采集
中輸入目標網址
(注:本站需要登錄,點擊網站需要登錄
登錄后關閉即可。)
步驟二:采集列表數據
點擊下一步
,爬山虎自動打開網頁,智能識別列表數據 。
(注:我們采集的是單條數據,智能識別列表數據不是我們需要的,這里需要手動修改,具體操作如下:)
1.手動修改列表模式
清空所有
-列表模式/單條模式
-添加字段
點擊要采集的字段,重復同樣操作,依次添加所需字段,直至完成即可。
2.修改字段名稱
選中字段
-右擊
-修改名稱
步驟三:采集數據并導出
直接下一步
啟動采集,選擇需要的格式導出即可。
數據示例:
通過以上學習,我們可以使用爬山虎采集一條完整的單條數據,大家對簡單的配置規則多了一分了解,為后面課程的學習打好了基礎!