天天看點

nutch在windows下的配置

nutch0.9+Tomcat6在windows下的配置,還需要下載下傳一個Cygwin類UNIX模拟環境,當然在linux環境下可以跳過這個。

在nutch-0.9目錄下建立一個weburls.txt,用于存放入口網頁位址,如http://www.view.sdu.edu.cn/。然後在nutch-0.9/conf/crawl-urlfilter.txt檔案裡修改以下地方:在

# accept hosts in MY.DOMAIN.NAME

#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

後面添加+^http://www.view.sdu.edu.cn/這一行。

在nutch-0.9/conf/nutch-site.xml檔案裡的配置裡添加以下:

<property>

<name>http.agent.name</name>

<value>*</value>

<description>localweb.com</description>

</property>

<property>

<name>searcher.dir</name>

<value>D:\nutch\nutch-0.9\localweb</value>

<description></description>

</property>

然後打開Cygwin,到nutch-0.9的目錄下,敲入指令行 bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2,然後回車等待下載下傳。下載下傳完成後,将nutch-0.9目錄下的nutch-0.9.war檔案複制到tomcat目錄下的webapps目錄下并解壓,解壓過程中選擇全部替換。然後在解壓後的webapps/nutch-0.9/WEB-INF/classes目錄下的nutch-site.xml檔案裡進行修改,将以下内容添加到configuration屬性中:

<property>

<name>searcher.dir</name>

<value>D:\nutch\nutch-0.9\localweb</value>

<description></description>

</property>

然後打開浏覽器輸入http://127.0.0.1:8080/nutch-0.9出現nutch界面:

nutch在windows下的配置

測試查詢,輸入 山東大學齊魯醫院 ,出現以下界面:

nutch在windows下的配置

nutch搜尋引擎初步完成。注意上述步驟的操作順序,有些順序十分嚴格,本實驗感謝董小五程式媛鼓勵師的耐心指導。

繼續閱讀