nutch0.9+Tomcat6在windows下的配置,還需要下載下傳一個Cygwin類UNIX模拟環境,當然在linux環境下可以跳過這個。
在nutch-0.9目錄下建立一個weburls.txt,用于存放入口網頁位址,如http://www.view.sdu.edu.cn/。然後在nutch-0.9/conf/crawl-urlfilter.txt檔案裡修改以下地方:在
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
後面添加+^http://www.view.sdu.edu.cn/這一行。
在nutch-0.9/conf/nutch-site.xml檔案裡的配置裡添加以下:
<property>
<name>http.agent.name</name>
<value>*</value>
<description>localweb.com</description>
</property>
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>
然後打開Cygwin,到nutch-0.9的目錄下,敲入指令行 bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2,然後回車等待下載下傳。下載下傳完成後,将nutch-0.9目錄下的nutch-0.9.war檔案複制到tomcat目錄下的webapps目錄下并解壓,解壓過程中選擇全部替換。然後在解壓後的webapps/nutch-0.9/WEB-INF/classes目錄下的nutch-site.xml檔案裡進行修改,将以下内容添加到configuration屬性中:
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>
然後打開浏覽器輸入http://127.0.0.1:8080/nutch-0.9出現nutch界面:
測試查詢,輸入 山東大學齊魯醫院 ,出現以下界面:
nutch搜尋引擎初步完成。注意上述步驟的操作順序,有些順序十分嚴格,本實驗感謝董小五程式媛鼓勵師的耐心指導。