<a href="#%e6%ba%90%e7%a0%81%e4%b8%8b%e8%bd%bd">源码下载</a>
<a href="#%e4%bf%ae%e6%94%b9%e9%85%8d%e7%bd%ae%e6%96%87%e4%bb%b6">修改配置文件</a>
<a href="#%e7%bc%96%e8%af%91%e9%a1%b9%e7%9b%ae-%e5%af%bc%e5%85%a5intellij-idea">编译项目 导入intellij idea</a>
<a href="#%e8%b0%83%e6%95%b4%e4%be%9d%e8%b5%96%e9%a1%ba%e5%ba%8f">调整依赖顺序</a>
<a href="#%e8%bf%90%e8%a1%8c%e6%b5%8b%e8%af%95">运行测试</a>
<a href="#%e8%81%94%e7%b3%bb%e4%bd%9c%e8%80%85">联系作者</a>
解压后得到目录apache-nutch-2.3.1,进入该目录。
修改配置文件conf/nutch-site.xml
修改ivy/ivy.xml文件 取消mongodb注释
修改conf/gora.properties文件配置mongodb
在该目录下分别执行ant clean,ant,ant eclipse。执行完成后。打开intellij idea import project->选择apache-nutch-2.3.1目录->import project from external model(选择eclipse),之后一路next即可。
调整依赖顺序 1.前三个依赖顺序为conf,module source,1.8(jdk)
在该目录下建立文件夹urls,在文件夹下建立文件seed.txt 该文件用于存储种子url。工程搭建完成后目录结构如下图所示:
我根据crawl脚本“直译”了一个java类(crawl)方便用于调试
先启动mongodb,然后直接直接运行crawl类即可。我的配置默认mongodb是配置在本地机器。
如果要单独运行nutch的每个阶段,如inject、generate、fetch等可以按下面的方法来配置。以inject为例,其他都类似。
在idea里面 点击edit configurations..然后点击左上脚+号,选择application,配置运行的类和参数即可,如下图所示:
<a href="http://blog.csdn.net/lqleo323">csdn</a>