天天看點

natch常用的幾個類

抓取目錄分析

一共生成5個檔案夾,分别是:

l         crawldb目錄存放下載下傳的URL,以及下載下傳的日期,用來頁面更新檢查時間.

l         linkdb目錄存放URL的互聯關系,是下載下傳完成後分析得到的.

l         segments:存放抓取的頁面,下面子目錄的個數于擷取的頁面層數有關系,通常每一層頁面會獨立存放一個子目錄,子目錄名稱為時間,便于管理.比如我這隻抓取了一層頁面就隻生成了20090508173137目錄.每個子目錄裡又有6個子檔案夾如下:

Ø         content:每個下載下傳頁面的内容。

Ø         crawl_fetch:每個下載下傳URL的狀态。

Ø         crawl_generate:待下載下傳URL集合。

Ø         crawl_parse:包含來更新crawldb的外部連結庫。

Ø         parse_data:包含每個URL解析出的外部連結和中繼資料

Ø         parse_text:包含每個解析過的URL的文本内容。

l         indexs:存放每次下載下傳的獨立索引目錄

l         index:符合Lucene格式的索引目錄,是indexs裡所有index合并後的完整索引

1.2 Crawl過程概述

引用到的類主要有以下9個:

1、  nutch.crawl.Inject

用來給抓取資料庫添加URL的插入器

2、  nutch.crawl.Generator

用來生成待下載下傳任務清單的生成器

3、  nutch.fetcher.Fetcher

完成抓取特定頁面的抓取器

4、  nutch.parse.ParseSegment

負責内容提取和對下級URL提取的内容進行解析的解析器

5、  nutch.crawl.CrawlDb

負責資料庫管理的資料庫管理工具

6、  nutch.crawl.LinkDb

負責連結管理

7、  nutch.indexer.Indexer

負責建立索引的索引器

8、  nutch.indexer.DeleteDuplicates

删除重複資料

9、  nutch.indexer.IndexMerger

對目前下載下傳内容局部索引和曆史索引進行合并的索引合并器

繼續閱讀