natch常用的几个类

2023-03-06 02:59:34

抓取目录分析

一共生成5个文件夹,分别是:

l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.

l linkdb目录存放URL的互联关系,是下载完成后分析得到的.

l segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下:

Ø content：每个下载页面的内容。

Ø crawl_fetch：每个下载URL的状态。

Ø crawl_generate：待下载URL集合。

Ø crawl_parse：包含来更新crawldb的外部链接库。

Ø parse_data：包含每个URL解析出的外部链接和元数据

Ø parse_text：包含每个解析过的URL的文本内容。

l indexs：存放每次下载的独立索引目录

l index：符合Lucene格式的索引目录，是indexs里所有index合并后的完整索引

1.2 Crawl过程概述

引用到的类主要有以下9个：

1、 nutch.crawl.Inject

用来给抓取数据库添加URL的插入器

2、 nutch.crawl.Generator

用来生成待下载任务列表的生成器

3、 nutch.fetcher.Fetcher

完成抓取特定页面的抓取器

4、 nutch.parse.ParseSegment

负责内容提取和对下级URL提取的内容进行解析的解析器

5、 nutch.crawl.CrawlDb

负责数据库管理的数据库管理工具

6、 nutch.crawl.LinkDb

负责链接管理

7、 nutch.indexer.Indexer

负责创建索引的索引器

8、 nutch.indexer.DeleteDuplicates

删除重复数据

9、 nutch.indexer.IndexMerger

对当前下载内容局部索引和历史索引进行合并的索引合并器

natch常用的几个类

继续阅读

互联网商规-part2

ElasticSearch：部署ElasticSearch & Kibana

TF-IDF超级算法概述

关键词权重的量化方法TF/IDF

seo技巧篇

最新数据：微信及WeChat月活12.5亿多，2021年第二季游戏收入430亿元

ubuntu设置全攻略

超详细robots.txt写法大全和禁止目录收录及指定页面

正确理解和判断PR劫持的方法（站长必看）

lucene 关键字高亮

传说中比google和百度牛的十佳搜索类网站

百度、新浪、Mixi、Apache社区赞助的开源key-value分布式存储系统[转载]

门户通专访月光博客：第一博客是如何打造成的

门户通专访草根站长九天狼：做站贵在坚持

专家访谈：搜索开源力量：Lucene技术前景

30天了解30种技术系列---(10)面向Cloud的搜索引擎 ElasticSearch