下面為大家詳細介紹微信公眾號文章的采集方法(xpath+列表頁+內容頁)
采集網站:http://weixin.sogou.com/weixin?type=1&s_from=input&query=揚子晚報&ie=utf8&sug=n&sug_type=
采集內容:微信公眾號文章
采集字段:文章名稱、發布時間、內容
第一步:新建任務
進入主頁,選擇“新建任務”輸入需要采集的網址。
第二步:抓取數據
網頁結構原因,無法自動識別列表,需要手動添加
清空所有,添加字段/點擊標題(標題鏈接內容,所以要抓取鏈接)
標題就是鏈接,刪除多余的標題字段
鏈接部分需要手動設置xpath(xpath學習:http://www.w3school.com.cn)
設置xpath屬性值
選中鏈接/深入此鏈接
跳轉到標題列表頁,可以看到列表數據已自動加載
要采集標題內容頁(標題鏈接內容頁,標題即是鏈接)
文章標題需保留,添加字段/點擊標題(目的是為了得到鏈接),取值屬于設置:"hrefs"
選中鏈接/深入此鏈接
跳轉到內容頁,添加字段,點擊選中整篇文章
第三步:設置
根據需要,自定義設置,可以大大提高加載速度及工作效率。
第四步:加載數據
任務列表中:選中任務/點擊開使
點數數據,可以預覽數據,也可以看到加載的進程
第五步:查看保存數據
任務列表中:選中任務/點擊查看
預覽數據也可以能過查看數據查看,并導出數據
選擇合適的保存格式