本文介紹使用爬山虎采集器,批量采集微博主發布文章內的圖片。
采集網站:https://weibo.com/zshid?refer_flag=1001030103_
第一步:下載爬山虎采集器,安裝完成之后打開軟件
自定義采集或者文件新建,輸入網址(注:此站需要登錄,直接登錄后關閉就可以了)
第二步:抓取數據
采集器自動識別列表數據,因為我們主要采集圖片,多條的列右鍵刪除。
F12網站后臺找到圖片的xpath,xpath學習
采集器中設置圖片的xpath
設置取值屬性
文件下載
說明:保留文章標題名稱列,就是以標題給圖片命名,這樣方便區分。
瀑布流分頁,下一步,直至完成。
第三步:加載數據
任務列表中:選中任務/點擊開使
通過日志可以看出加載的進程 ,爬山虎采集器的速度是非??斓?/p>
暫停后,提示下載118個圖片如下,注意文件名都是根據標題命名的