天天看点

natch常用的几个类

抓取目录分析

一共生成5个文件夹,分别是:

l         crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.

l         linkdb目录存放URL的互联关系,是下载完成后分析得到的.

l         segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下:

Ø         content:每个下载页面的内容。

Ø         crawl_fetch:每个下载URL的状态。

Ø         crawl_generate:待下载URL集合。

Ø         crawl_parse:包含来更新crawldb的外部链接库。

Ø         parse_data:包含每个URL解析出的外部链接和元数据

Ø         parse_text:包含每个解析过的URL的文本内容。

l         indexs:存放每次下载的独立索引目录

l         index:符合Lucene格式的索引目录,是indexs里所有index合并后的完整索引

1.2 Crawl过程概述

引用到的类主要有以下9个:

1、  nutch.crawl.Inject

用来给抓取数据库添加URL的插入器

2、  nutch.crawl.Generator

用来生成待下载任务列表的生成器

3、  nutch.fetcher.Fetcher

完成抓取特定页面的抓取器

4、  nutch.parse.ParseSegment

负责内容提取和对下级URL提取的内容进行解析的解析器

5、  nutch.crawl.CrawlDb

负责数据库管理的数据库管理工具

6、  nutch.crawl.LinkDb

负责链接管理

7、  nutch.indexer.Indexer

负责创建索引的索引器

8、  nutch.indexer.DeleteDuplicates

删除重复数据

9、  nutch.indexer.IndexMerger

对当前下载内容局部索引和历史索引进行合并的索引合并器

继续阅读