抓取目錄分析
一共生成5個檔案夾,分别是:
l crawldb目錄存放下載下傳的URL,以及下載下傳的日期,用來頁面更新檢查時間.
l linkdb目錄存放URL的互聯關系,是下載下傳完成後分析得到的.
l segments:存放抓取的頁面,下面子目錄的個數于擷取的頁面層數有關系,通常每一層頁面會獨立存放一個子目錄,子目錄名稱為時間,便于管理.比如我這隻抓取了一層頁面就隻生成了20090508173137目錄.每個子目錄裡又有6個子檔案夾如下:
Ø content:每個下載下傳頁面的内容。
Ø crawl_fetch:每個下載下傳URL的狀态。
Ø crawl_generate:待下載下傳URL集合。
Ø crawl_parse:包含來更新crawldb的外部連結庫。
Ø parse_data:包含每個URL解析出的外部連結和中繼資料
Ø parse_text:包含每個解析過的URL的文本内容。
l indexs:存放每次下載下傳的獨立索引目錄
l index:符合Lucene格式的索引目錄,是indexs裡所有index合并後的完整索引
1.2 Crawl過程概述
引用到的類主要有以下9個:
1、 nutch.crawl.Inject
用來給抓取資料庫添加URL的插入器
2、 nutch.crawl.Generator
用來生成待下載下傳任務清單的生成器
3、 nutch.fetcher.Fetcher
完成抓取特定頁面的抓取器
4、 nutch.parse.ParseSegment
負責内容提取和對下級URL提取的内容進行解析的解析器
5、 nutch.crawl.CrawlDb
負責資料庫管理的資料庫管理工具
6、 nutch.crawl.LinkDb
負責連結管理
7、 nutch.indexer.Indexer
負責建立索引的索引器
8、 nutch.indexer.DeleteDuplicates
删除重複資料
9、 nutch.indexer.IndexMerger
對目前下載下傳内容局部索引和曆史索引進行合并的索引合并器