natch常用的幾個類

2023-03-06 02:59:34

抓取目錄分析

一共生成5個檔案夾,分别是:

l crawldb目錄存放下載下傳的URL,以及下載下傳的日期,用來頁面更新檢查時間.

l linkdb目錄存放URL的互聯關系,是下載下傳完成後分析得到的.

l segments:存放抓取的頁面,下面子目錄的個數于擷取的頁面層數有關系,通常每一層頁面會獨立存放一個子目錄,子目錄名稱為時間,便于管理.比如我這隻抓取了一層頁面就隻生成了20090508173137目錄.每個子目錄裡又有6個子檔案夾如下:

Ø content：每個下載下傳頁面的内容。

Ø crawl_fetch：每個下載下傳URL的狀态。

Ø crawl_generate：待下載下傳URL集合。

Ø crawl_parse：包含來更新crawldb的外部連結庫。

Ø parse_data：包含每個URL解析出的外部連結和中繼資料

Ø parse_text：包含每個解析過的URL的文本内容。

l indexs：存放每次下載下傳的獨立索引目錄

l index：符合Lucene格式的索引目錄，是indexs裡所有index合并後的完整索引

1.2 Crawl過程概述

引用到的類主要有以下9個：

1、 nutch.crawl.Inject

用來給抓取資料庫添加URL的插入器

2、 nutch.crawl.Generator

用來生成待下載下傳任務清單的生成器

3、 nutch.fetcher.Fetcher

完成抓取特定頁面的抓取器

4、 nutch.parse.ParseSegment

負責内容提取和對下級URL提取的内容進行解析的解析器

5、 nutch.crawl.CrawlDb

負責資料庫管理的資料庫管理工具

6、 nutch.crawl.LinkDb

負責連結管理

7、 nutch.indexer.Indexer

負責建立索引的索引器

8、 nutch.indexer.DeleteDuplicates

删除重複資料

9、 nutch.indexer.IndexMerger

對目前下載下傳内容局部索引和曆史索引進行合并的索引合并器

natch常用的幾個類

繼續閱讀

網際網路商規-part2

ElasticSearch：部署ElasticSearch & Kibana

TF-IDF超級算法概述

關鍵詞權重的量化方法TF/IDF

seo技巧篇

最新資料：微信及WeChat月活12.5億多，2021年第二季遊戲收入430億元

ubuntu設定全攻略

超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面

正确了解和判斷PR劫持的方法（站長必看）

lucene 關鍵字高亮

傳說中比google和百度牛的十佳搜尋類網站

百度、新浪、Mixi、Apache社群贊助的開源key-value分布式存儲系統[轉載]

門戶通專訪月光部落格：第一部落格是如何打造成的

門戶通專訪草根站長九天狼：做站貴在堅持

專家訪談：搜尋開源力量：Lucene技術前景

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch