天天看點

solr(二):Solr配置中文分詞器IKAnalyzer2012FF_u1一、目的二、環境三、實作步驟四、校驗

一、目的

    通過使用比較高效的IKAnalyzer2012FF_u1分詞器對中文内容進行檢索分詞,利于最終的全文檢索。

二、環境

1.CentOS6.4

2.CDH5.7.0

3.solr-4.10.3-cdh5.7.0

三、實作步驟

1.下載下傳ik分詞器IKAnalyzer2012FF_u1

https://download.csdn.net/download/u010886217/11147669

2.把IKAnalyzer2012FF_u1.jar添加到tomcat解壓縮後的solr/WEB-INF/lib目錄下

/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/lib/IKAnalyzer2012FF_u1.jar
           

3.複制IKAnalyzer的配置檔案和自定義詞典和停用詞詞典(ext.dic、IKAnalyzer.cfg.xml、stopword.dic三個檔案),拷貝到solr的classpath下,也就是在/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes目錄下。如果沒有classes,則建立classes目錄:

cd /opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes
# ls
IKAnalyzer.cfg.xml  log4j.properties  stopword.dic
           

4.在schema.xml中添加一個自定義域類型fieldType,進而使用中文分析器。

<!-- IKAnalyzer-->
<fieldType name="text_ik" class="solr.TextField">
  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
           

5.定義域field,使用剛剛定義的域類型text_ik,指定field的類型fieldtype屬性為text_ik

<!--IKAnalyzer Field-->
<field name="title_ik" type="text_ik" indexed="true" stored="true" />
<field name="content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>
           

6.重新開機tomcat

cd /opt/modules/tomcat-8.5.12
bin/shutdown.sh
bin/startup.sh
           

四、校驗

1.打開solr

http://hadoop01:9999/solr/#/collection1
           

2.選擇剛剛定義的content_ik分詞器域

solr(二):Solr配置中文分詞器IKAnalyzer2012FF_u1一、目的二、環境三、實作步驟四、校驗

3.選擇《背影》經典作為檢驗

我說道:“爸爸,你走吧。”他往車外看了看說:“我買幾個橘子去。你就在此地,不要走動。”我看那邊月台的栅欄外有幾個賣東西的等着顧客。走到那邊月台,須穿過鐵道,須跳下去又爬上去。父親是一個胖子,走過去自然要費事些。
           

分詞效果非常好

solr(二):Solr配置中文分詞器IKAnalyzer2012FF_u1一、目的二、環境三、實作步驟四、校驗

繼續閱讀