天天看點

Nutch1.2+Tomcat7.0+Cygwin網頁爬蟲工具搭建

1.搭建環境:    電腦機型-聯想Y450;    處理器-Intel(R) Core(TM) Duo CPU T6500 @ 2.10GHZ 2.10 GHZ;    作業系統-Win7旗艦版32位;    安裝記憶體(RAM)-2.00GB。 2.所用軟體包:    jdk-7-windows-i586    apache-tomcat-7.0.27

   setup-x86(32-bit installation for cygwin)    apache-nutch-1.2-bin.tar

   content.rdf.u8_ 3.詳細安裝過程:  01.JAVA安裝     a.運作jdk-7u5-windows-i586,比如安裝到E:\JAVA;     b.配置環境變量,通過“計算機-系統屬性-進階系統設定-環境變量”進入環境變量修改環境,增加以下環境變量:                環境變量名:CATALINA_HOME,值:E:\JAVA\JDK                環境變量名:Path,值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;                環境變量名:CLASSPATH,值:.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\bin;     c.環境變量配置好後,點選“WIN+R”組合鍵,輸入cmd進入dos環境,運作“javac -version”,若顯示出java版本相關資訊,則java安裝成功;  02.Tomcat安裝     a.輕按兩下運作相應安裝包,選擇安裝路徑,如E:\Tomcat7.0;     b.配置環境變量,通過“計算機-系統屬性-進階系統設定-環境變量”進入環境變量修改環境,增加以下環境變量:        環境變量名:TOMCAT_HOME,值:E:\JAVA\Tomcat7.0;        環境變量名:CATALINA_HOME,值:E:\JAVA\Tomcat7.0;        CLASSPATH後增加:%TOMCAT_HOME%\bin;%CATALINA_HOME%\common\lib\servletapi.jar;%CATALINA_HOME%\common\lib\jsp-api.jar;        PATH後增加:%CATALINA_HOME%\bin\     c.啟動E:\Tomcat7.0\bin\Tomcat7完成後,浏覽器輸入http://127.0.0.1:8080,如果顯示相應Apache Tomcat相應頁面說明Tomcat安裝成功。  03.Cygwin安裝     a.通路http://www.cygwin.com/,下載下傳setup-x86(32-bit installation for cygwin);     b.下載下傳到本地後,點選setup-x86選擇其中一種方式安裝即可,假如安裝在E:\Cygwin;     c.配置環境變量,通過“計算機-系統屬性-進階系統設定-環境變量”進入環境變量修改環境,增加以下環境變量:       PATH後增加:E:\Cygwin\bin;     d.檢查Cygwin是否安裝成功:打開E:\Cygwin\bin下的mintty,若能正常啟動則表示安裝成功。  04.Nutch安裝     a.解壓apache-nutch-1.2-bin.tar至E:\Nutch1.2下,確定bin的母目錄即為Nutch1.2;     b.啟動Cygwin,運作"df"指令,檢查各盤使用情況,通過cd指令改變路徑到E:\Nutch1.2;     c.運作"bin/nutch"指令,若出現"Usage:Nutch [-core] COMMAND"相關提示指令,則表示Nutch安裝成功,Cheers! 4.網頁抓取示例:  01.Nutch1.2爬蟲運作(以nutch.apache.org為例)   a.打開E:\Nutch1.2\conf下的nutch-site.xml檔案,在<configuration></configuration>中增加以下内容:     <property>    <name>http.agent.name</name>    <value>My Nutch Spider</value>   </property>   <property>    <name>http.agent.version</name>    <value>1.0</value>   </property>   <property>     <name>searcher.dir</name>     <value>E:\Nutch1.2\crawled</value>   </property>  b.啟動Cygwin,利用cd指令改變路徑到E:\Nutch1.2;  c.通過以下指令完成在Nutch1.2中增加urls檔案,在urls中建立target.txt并增加url-http://nutch.apache.org/:    mkdir -p urls    cd urls    touch target.txt    echo http://nutch.apache.org/ >> target.txt  d.打開E:\Nutch1.2\conf下的regex-urlfilter.txt檔案,将"#accept anything else"處的"+."替換成:       +^http://([a-z0-9]*\.)*nutch.apache.org/     Tips:去掉nutch.apache.org/也可以,這樣表示http的所有網站都爬行;  e.Cygwin中輸入指令運作爬蟲:     bin/nutch crawl urls/target.txt -dir crawled -depth 3 -topN 5  >&logs/target.log    若Cygwin顯示"crawl finished:target",則表示抓取網頁完成;  f.如果運作出現"Exception in thread "main" java.io.IOException: Job failed! ",則可通過在Cygwin中輸入"export "即可解決;  g.抓取網頁完成後,可通過 bin/nutch org.apache.nutch.searcher.NutchBean nutch進行檢查是否抓取成功,如果一直顯示抓取為0,則需要修 改E:\Nutch1.2\conf下的nutch-site.xml的property屬性。 02.Tomcat7.0展示  a.将nutch-1.2.war拷貝到E:\Tomcat7.0\webapps\下,重新開機相應Tomcat,這一步可以解壓相應war檔案;  b.将E:\Nutch1.2\conf下的nutch-site.xml拷貝至E:\Tomcat7.0\webapps\nutch-1.2\WEB-INF\classes下覆寫相應nutch-site.xml檔案;  c.重新開機Tomcat即可,在Nutch頁面輸入框輸入相應關鍵詞,即可查詢相關爬蟲結果;  d.解決Tomcat的編碼問題,打開E:\Tomcat7.0\conf\server.xml,找到"connection Timeout="20000" redirectPort="8443"",在其後增加:URIEncoding="UTF-8" useBodyEncodingForURI="true"   至此,Nutch1.2+Tomcat7.0網頁爬蟲工具搭建就好啦! 5.參考網址:  01.Nutch wiki:http://wiki.apache.org/nutch/NutchTutorial  02.http://wenku.baidu.com/view/a497821b6bd97f192279e99a.html            

繼續閱讀