通過學習【第2節采集單條數據】【第3節采集列表數據】,我們學會了如何采集單條及多條列表數據。本節課我們學習,如何從列表頁進入詳情頁采集,列表頁和詳情頁的數據都需要采集。
下面我們以58同城租房為例,采集58同城租房子列表,及詳情頁數據:
案例地址:
https://hf.58.com/chuzu/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d100000-0034-5d7b-6bb8-da8df91cf65e&ClickID=2
可以看到,每行列表項的標題都有鏈接,點擊進入詳情頁面。
點擊鏈接,進入詳情頁后可選擇需要采集的字段,我們采集詳情頁:房屋亮點
和房屋描述
。
下面是我們按照網頁上列表鏈接的順序,爬山虎自動依次點擊鏈接進入詳情頁,然后采集詳情頁中的字段,并 保存為Excel等結構化的數據。
具體操作如下:
第一步:輸入網址
在起始頁輸入框
中輸入目標網址,點擊下一步
,
第二步:抓取數據
爬山虎自動識別列表數據,選中鏈接
字段-深入此鏈接
,
- 01:自定義添加字段
深入鏈接至詳情頁后,添加字段
,點擊需要采集的文本
注:字段“房屋亮點”,需要二步簡單的數據處理。
a: 我們需要選中“房屋亮點”后面整行文本描述,通過點擊只能選擇了第一個詞。
選中該字段
—右擊
—修改為xpath
為://ul[@class='introduce-item']/li[1]/span[2]
b:修改后,鼠標放上,可以看出所有文本都包含了,但是文本有格式是亂的,
選中該字段
—右擊
—設置取值屬性
為FormattedText
具體操作流程如下:
- 02:修改列表頁及詳情頁字段名稱
選中該字段—右擊—修改名稱
(如:名稱,地址,經紀人及價格等)
第三步:采集數據并導出
修改完字段名后,整個規則編輯完成,然后下一步
直至采集完成。采集完成后,選擇合適的導出方式導出數據,,這里導出為Excel。
采集數據示例:
通過以上學習,我們可以使用爬山虎編輯了一個完整的規則,采集列表頁及詳情頁的數據,為后面的更深入的學習打了基礎。