本文介紹使用爬山虎采集器,批量采集微博微博粉絲信息。
采集粉絲群體字段:粉絲ID、粉絲主頁URL、關注人數、關注頁URL、粉絲數、粉絲頁URL、微博數、微博數URL、地址、簡介、關注方式、關注方式URL。
采集網站:https://weibo.com/p/1005052396658275/follow?relate=fans&from=100505&wvr=6&mod=headfans¤t=fans#place
第一步:下載爬山虎采集器,安裝完成之后打開軟件
在軟件起始頁的“自定義采集”或者直接“新建”,輸入網址,本網站需要登錄
第二步:抓取數據
采集器自動識別列表數據,因為要爬取多個url,所以先不需要刪除列,在手動添加字段
修改下表頭名稱,自動識別分頁,下一步直到完成
第三步:加載數據
任務列表中:選中任務/右鍵/開始采集
通過日志,可以看到加載的進程
點擊數據按鈕,可直接預覽數據
第四步:查看保存數據
任務列表中:選中任務/點擊查看 ,導出數據