天天看點

Nutch2.3.1源碼開發環境搭建

<a href="#%e6%ba%90%e7%a0%81%e4%b8%8b%e8%bd%bd">源碼下載下傳</a>

<a href="#%e4%bf%ae%e6%94%b9%e9%85%8d%e7%bd%ae%e6%96%87%e4%bb%b6">修改配置檔案</a>

<a href="#%e7%bc%96%e8%af%91%e9%a1%b9%e7%9b%ae-%e5%af%bc%e5%85%a5intellij-idea">編譯項目 導入intellij idea</a>

<a href="#%e8%b0%83%e6%95%b4%e4%be%9d%e8%b5%96%e9%a1%ba%e5%ba%8f">調整依賴順序</a>

<a href="#%e8%bf%90%e8%a1%8c%e6%b5%8b%e8%af%95">運作測試</a>

<a href="#%e8%81%94%e7%b3%bb%e4%bd%9c%e8%80%85">聯系作者</a>

解壓後得到目錄apache-nutch-2.3.1,進入該目錄。

修改配置檔案conf/nutch-site.xml

修改ivy/ivy.xml檔案 取消mongodb注釋

修改conf/gora.properties檔案配置mongodb

在該目錄下分别執行ant clean,ant,ant eclipse。執行完成後。打開intellij idea import project-&gt;選擇apache-nutch-2.3.1目錄-&gt;import project from external model(選擇eclipse),之後一路next即可。

調整依賴順序 1.前三個依賴順序為conf,module source,1.8(jdk)

Nutch2.3.1源碼開發環境搭建

在該目錄下建立檔案夾urls,在檔案夾下建立檔案seed.txt 該檔案用于存儲種子url。工程搭建完成後目錄結構如下圖所示:

Nutch2.3.1源碼開發環境搭建

我根據crawl腳本“直譯”了一個java類(crawl)友善用于調試

先啟動mongodb,然後直接直接運作crawl類即可。我的配置預設mongodb是配置在本地機器。

如果要單獨運作nutch的每個階段,如inject、generate、fetch等可以按下面的方法來配置。以inject為例,其他都類似。

在idea裡面 點選edit configurations..然後點選左上腳+号,選擇application,配置運作的類和參數即可,如下圖所示:

Nutch2.3.1源碼開發環境搭建

<a href="http://blog.csdn.net/lqleo323">csdn</a>