介紹
在創建第一個任務示例中,我們演示了如何采集列表頁數據。 有時不僅要采集列表頁數據,還要采集內容頁。下面就來介紹下如何采集多級頁面。
以新浪新聞為例,我們要采集采集最新的新聞標題、時間、內容。
首先,輸入起始網址,http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml,點擊下一步
。
程序自動分析出列表數據,然后點擊藍色鏈接列
的列頭。這時,工具欄出現深入此鏈接采集
,點擊該按鈕。
然后瀏覽器會新建一個內容頁的標簽頁。 在內容頁標簽頁中,點擊添加字段
,然后在瀏覽器中點擊新聞內容,修改字段名稱為內容。
- 在選擇正文內容時,如果鼠標無法選擇完整內容時,參考如何選擇完整正文
然后,下一步,完成。 我們測試下任務
如何手動采集鏈接
一般情況下
- 新建字段,點擊需要采集的鏈接。
- 把取值屬性修改為href
部分使用javascript
來跳轉的鏈接需要我們手動組合鏈接地址( href值為空,或者類似javascirpt:xxx()
)
如何刪除一個標簽頁? 右擊瀏覽器標簽頁的頂部,選擇刪除此頁面
。