1.選中nutch所在eclipse中的工程,建立一個檔案夾urls
2.選中urls檔案夾,建立urls.txt(存放url,crawl的起點)。寫入url
3.修改nutch/conf中的nutch-site.xml。如下
4.修改nutch/conf 中的regex-urlfilter.txt (url 的過濾規則,自己修改)
5.選中nutch工程,右擊run as -> run configurations,輕按兩下java application,建立一個,Name随意寫,關鍵是下面的main class要正确
6.點選上面的arguments,如下修改
7.點選run,效果
8.爬取成功,如果要讀取爬取的資訊則可以
run as -> run configurations 建立java appication,如下操作
結果如下