天天看點

nutch-1.4在eclipse中運作

1.選中nutch所在eclipse中的工程,建立一個檔案夾urls

nutch-1.4在eclipse中運作

2.選中urls檔案夾,建立urls.txt(存放url,crawl的起點)。寫入url

nutch-1.4在eclipse中運作

3.修改nutch/conf中的nutch-site.xml。如下

nutch-1.4在eclipse中運作

4.修改nutch/conf 中的regex-urlfilter.txt (url 的過濾規則,自己修改)

nutch-1.4在eclipse中運作

5.選中nutch工程,右擊run as -> run configurations,輕按兩下java application,建立一個,Name随意寫,關鍵是下面的main class要正确

nutch-1.4在eclipse中運作

6.點選上面的arguments,如下修改

nutch-1.4在eclipse中運作

7.點選run,效果

nutch-1.4在eclipse中運作

8.爬取成功,如果要讀取爬取的資訊則可以

run as -> run configurations 建立java appication,如下操作

nutch-1.4在eclipse中運作
nutch-1.4在eclipse中運作

結果如下

nutch-1.4在eclipse中運作

繼續閱讀