一、目的
通過使用比較高效的IKAnalyzer2012FF_u1分詞器對中文内容進行檢索分詞,利于最終的全文檢索。
二、環境
1.CentOS6.4
2.CDH5.7.0
3.solr-4.10.3-cdh5.7.0
三、實作步驟
1.下載下傳ik分詞器IKAnalyzer2012FF_u1
https://download.csdn.net/download/u010886217/11147669
2.把IKAnalyzer2012FF_u1.jar添加到tomcat解壓縮後的solr/WEB-INF/lib目錄下
/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/lib/IKAnalyzer2012FF_u1.jar
3.複制IKAnalyzer的配置檔案和自定義詞典和停用詞詞典(ext.dic、IKAnalyzer.cfg.xml、stopword.dic三個檔案),拷貝到solr的classpath下,也就是在/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes目錄下。如果沒有classes,則建立classes目錄:
cd /opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes
# ls
IKAnalyzer.cfg.xml log4j.properties stopword.dic
4.在schema.xml中添加一個自定義域類型fieldType,進而使用中文分析器。
<!-- IKAnalyzer-->
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
5.定義域field,使用剛剛定義的域類型text_ik,指定field的類型fieldtype屬性為text_ik
<!--IKAnalyzer Field-->
<field name="title_ik" type="text_ik" indexed="true" stored="true" />
<field name="content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>
6.重新開機tomcat
cd /opt/modules/tomcat-8.5.12
bin/shutdown.sh
bin/startup.sh
四、校驗
1.打開solr
http://hadoop01:9999/solr/#/collection1
2.選擇剛剛定義的content_ik分詞器域
3.選擇《背影》經典作為檢驗
我說道:“爸爸,你走吧。”他往車外看了看說:“我買幾個橘子去。你就在此地,不要走動。”我看那邊月台的栅欄外有幾個賣東西的等着顧客。走到那邊月台,須穿過鐵道,須跳下去又爬上去。父親是一個胖子,走過去自然要費事些。
分詞效果非常好