天天看点

Nutch2.3.1源码开发环境搭建

<a href="#%e6%ba%90%e7%a0%81%e4%b8%8b%e8%bd%bd">源码下载</a>

<a href="#%e4%bf%ae%e6%94%b9%e9%85%8d%e7%bd%ae%e6%96%87%e4%bb%b6">修改配置文件</a>

<a href="#%e7%bc%96%e8%af%91%e9%a1%b9%e7%9b%ae-%e5%af%bc%e5%85%a5intellij-idea">编译项目 导入intellij idea</a>

<a href="#%e8%b0%83%e6%95%b4%e4%be%9d%e8%b5%96%e9%a1%ba%e5%ba%8f">调整依赖顺序</a>

<a href="#%e8%bf%90%e8%a1%8c%e6%b5%8b%e8%af%95">运行测试</a>

<a href="#%e8%81%94%e7%b3%bb%e4%bd%9c%e8%80%85">联系作者</a>

解压后得到目录apache-nutch-2.3.1,进入该目录。

修改配置文件conf/nutch-site.xml

修改ivy/ivy.xml文件 取消mongodb注释

修改conf/gora.properties文件配置mongodb

在该目录下分别执行ant clean,ant,ant eclipse。执行完成后。打开intellij idea import project-&gt;选择apache-nutch-2.3.1目录-&gt;import project from external model(选择eclipse),之后一路next即可。

调整依赖顺序 1.前三个依赖顺序为conf,module source,1.8(jdk)

Nutch2.3.1源码开发环境搭建

在该目录下建立文件夹urls,在文件夹下建立文件seed.txt 该文件用于存储种子url。工程搭建完成后目录结构如下图所示:

Nutch2.3.1源码开发环境搭建

我根据crawl脚本“直译”了一个java类(crawl)方便用于调试

先启动mongodb,然后直接直接运行crawl类即可。我的配置默认mongodb是配置在本地机器。

如果要单独运行nutch的每个阶段,如inject、generate、fetch等可以按下面的方法来配置。以inject为例,其他都类似。

在idea里面 点击edit configurations..然后点击左上脚+号,选择application,配置运行的类和参数即可,如下图所示:

Nutch2.3.1源码开发环境搭建

<a href="http://blog.csdn.net/lqleo323">csdn</a>