1.搭建環境: 電腦機型-聯想Y450; 處理器-Intel(R) Core(TM) Duo CPU T6500 @ 2.10GHZ 2.10 GHZ; 作業系統-Win7旗艦版32位; 安裝記憶體(RAM)-2.00GB。 2.所用軟體包: jdk-7-windows-i586 apache-tomcat-7.0.27
setup-x86(32-bit installation for cygwin) apache-nutch-1.2-bin.tar
content.rdf.u8_ 3.詳細安裝過程: 01.JAVA安裝 a.運作jdk-7u5-windows-i586,比如安裝到E:\JAVA; b.配置環境變量,通過“計算機-系統屬性-進階系統設定-環境變量”進入環境變量修改環境,增加以下環境變量: 環境變量名:CATALINA_HOME,值:E:\JAVA\JDK 環境變量名:Path,值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin; 環境變量名:CLASSPATH,值:.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\bin; c.環境變量配置好後,點選“WIN+R”組合鍵,輸入cmd進入dos環境,運作“javac -version”,若顯示出java版本相關資訊,則java安裝成功; 02.Tomcat安裝 a.輕按兩下運作相應安裝包,選擇安裝路徑,如E:\Tomcat7.0; b.配置環境變量,通過“計算機-系統屬性-進階系統設定-環境變量”進入環境變量修改環境,增加以下環境變量: 環境變量名:TOMCAT_HOME,值:E:\JAVA\Tomcat7.0; 環境變量名:CATALINA_HOME,值:E:\JAVA\Tomcat7.0; CLASSPATH後增加:%TOMCAT_HOME%\bin;%CATALINA_HOME%\common\lib\servletapi.jar;%CATALINA_HOME%\common\lib\jsp-api.jar; PATH後增加:%CATALINA_HOME%\bin\ c.啟動E:\Tomcat7.0\bin\Tomcat7完成後,浏覽器輸入http://127.0.0.1:8080,如果顯示相應Apache Tomcat相應頁面說明Tomcat安裝成功。 03.Cygwin安裝 a.通路http://www.cygwin.com/,下載下傳setup-x86(32-bit installation for cygwin); b.下載下傳到本地後,點選setup-x86選擇其中一種方式安裝即可,假如安裝在E:\Cygwin; c.配置環境變量,通過“計算機-系統屬性-進階系統設定-環境變量”進入環境變量修改環境,增加以下環境變量: PATH後增加:E:\Cygwin\bin; d.檢查Cygwin是否安裝成功:打開E:\Cygwin\bin下的mintty,若能正常啟動則表示安裝成功。 04.Nutch安裝 a.解壓apache-nutch-1.2-bin.tar至E:\Nutch1.2下,確定bin的母目錄即為Nutch1.2; b.啟動Cygwin,運作"df"指令,檢查各盤使用情況,通過cd指令改變路徑到E:\Nutch1.2; c.運作"bin/nutch"指令,若出現"Usage:Nutch [-core] COMMAND"相關提示指令,則表示Nutch安裝成功,Cheers! 4.網頁抓取示例: 01.Nutch1.2爬蟲運作(以nutch.apache.org為例) a.打開E:\Nutch1.2\conf下的nutch-site.xml檔案,在<configuration></configuration>中增加以下内容: <property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> <property> <name>http.agent.version</name> <value>1.0</value> </property> <property> <name>searcher.dir</name> <value>E:\Nutch1.2\crawled</value> </property> b.啟動Cygwin,利用cd指令改變路徑到E:\Nutch1.2; c.通過以下指令完成在Nutch1.2中增加urls檔案,在urls中建立target.txt并增加url-http://nutch.apache.org/: mkdir -p urls cd urls touch target.txt echo http://nutch.apache.org/ >> target.txt d.打開E:\Nutch1.2\conf下的regex-urlfilter.txt檔案,将"#accept anything else"處的"+."替換成: +^http://([a-z0-9]*\.)*nutch.apache.org/ Tips:去掉nutch.apache.org/也可以,這樣表示http的所有網站都爬行; e.Cygwin中輸入指令運作爬蟲: bin/nutch crawl urls/target.txt -dir crawled -depth 3 -topN 5 >&logs/target.log 若Cygwin顯示"crawl finished:target",則表示抓取網頁完成; f.如果運作出現"Exception in thread "main" java.io.IOException: Job failed! ",則可通過在Cygwin中輸入"export "即可解決; g.抓取網頁完成後,可通過 bin/nutch org.apache.nutch.searcher.NutchBean nutch進行檢查是否抓取成功,如果一直顯示抓取為0,則需要修 改E:\Nutch1.2\conf下的nutch-site.xml的property屬性。 02.Tomcat7.0展示 a.将nutch-1.2.war拷貝到E:\Tomcat7.0\webapps\下,重新開機相應Tomcat,這一步可以解壓相應war檔案; b.将E:\Nutch1.2\conf下的nutch-site.xml拷貝至E:\Tomcat7.0\webapps\nutch-1.2\WEB-INF\classes下覆寫相應nutch-site.xml檔案; c.重新開機Tomcat即可,在Nutch頁面輸入框輸入相應關鍵詞,即可查詢相關爬蟲結果; d.解決Tomcat的編碼問題,打開E:\Tomcat7.0\conf\server.xml,找到"connection Timeout="20000" redirectPort="8443"",在其後增加:URIEncoding="UTF-8" useBodyEncodingForURI="true" 至此,Nutch1.2+Tomcat7.0網頁爬蟲工具搭建就好啦! 5.參考網址: 01.Nutch wiki:http://wiki.apache.org/nutch/NutchTutorial 02.http://wenku.baidu.com/view/a497821b6bd97f192279e99a.html