簡介
爬山虎采集器是一款通用的網頁采集軟件,它能夠采集互聯網上的大部分網站數據,包括網頁表格數據、文檔、圖片及其他各種形式文件,自動批量下載到本地電腦。
可以將采集的數據導出為各種格式文件、數據庫、網站API接口。 可以定時運行,自動發布,增量更新采集,完全實現自動化運行,無需要人工干涉。極大提高人們從互聯網上獲取數據的效率。
軟件界面
下面對爬山虎采集器軟件的主要界面功能進行介紹。
打開軟件,在主界面有3個區域:
- 任務列表,包含所有的分組和已經創建的任務,在這里對任務進行管理
- 工具欄,一些常用的任務操作按鈕、選項、登陸。
- 起始頁,有簡易采集入口和自定義采集入口,以及文檔、客服鏈接
任務列表右鍵菜單
可以通過右鍵菜單對任務進行一系列操作,比如開始采集、編輯、刪除、復制,導出任務規則,導出、查看已采集數據。
運行狀態窗口
這里正在運行、已完成的任務運行狀態,包含任務名稱、狀態、下次運行時間、最后運行時間、最后采集數據量。
任務編輯器 - 自定義模式
任務編輯器用來新建、編輯任務規則,主要包含3部分:
- 第一步、輸入起始網址
- 第二步、抓取數據的詳細配置
- 第三步、設置(包含瀏覽器及任務的參數設置)
簡易采集
爬山虎采集器內置了上百種簡易采集規則,用戶只需要通過一些簡單參數(比如關鍵詞、網址)就可以開始采集。
采集市場,官方維護的采集規則,分為幾大類型,在新建自定義任務之前,可以先在這里搜索下是否有現成的規則。
簡易規則編輯器,點擊使用之后出現,可以設置一些簡單的數據,比如關鍵詞、網址,完成之后,可以直接點擊開始采集。
這里只對主要功能界面做下介紹,更多詳細請參考其他文檔。