下面為大家詳細介紹百度地圖數據的采集方法(編輯腳本+列表數據)
采集網站:http://map.baidu.com
采集內容:酒店數據列表
采集字段:名稱、評分、級別、價格、地址等
第一步:新建任務
進入主頁,選擇“新建任務”輸入需要采集的網址。
第二步:抓取數據
由于網頁結構不同,采集器無法自動抓取數據,需手動編輯腳本
(簡單的說,把我們日常搜索流程,用命令記錄下來)
添加命令/點擊(輸入框,輸入“酒店”)
添加命令/點擊(搜索按鈕)
命令已設置好,點擊“運行”,返回數據列表
可以看到采集器已自動識別列表數據
瀏覽器引擎/json引擎,(網站中沒有js動態,選json加載速度會更快)
分頁設置/自動識別分頁
第三步:設置
根據需要,自定義設置,可以大大提高加載速度及工作效率。
第四步:加載數據
任務列表中:選中任務/點擊開使
可以看到加載的進程
第五步:查看保存數據
任務列表中:選中任務/點擊查看
可以預覽剛加載的數據,并導出數據
選擇合適的保存格式
剛我們選擇Excel,效果如下