介紹

在創建第一個任務示例中,我們演示了如何采集列表頁數據。 有時我們不僅要采集列表頁數據,還要采集內容頁。下面就來介紹下如何采集多級頁面。

新浪新聞為例,我們要采集采集最新的新聞標題、時間、內容。

首先,輸入起始網址,http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml,點擊下一步。

程序自動分析出列表數據,然后點擊藍色鏈接列的列頭。這時,工具欄出現深入此鏈接采集 ,點擊該按鈕。

pages

然后瀏覽器會新建一個內容頁的標簽頁。 在內容頁標簽頁中,點擊添加字段,然后在瀏覽器中點擊新聞內容,修改字段名稱為內容。

pages

然后,下一步,完成。 我們測試下任務

pages


如何手動采集鏈接

一般情況下

  1. 新建字段,點擊需要采集的鏈接。
  2. 取值屬性修改為href

部分使用javascript 來跳轉的鏈接需要我們手動組合鏈接地址( href值為空,或者類似javascirpt:xxx())


如何刪除一個標簽頁? 右擊瀏覽器標簽頁的頂部,選擇刪除此頁面。

pages