Hanlp1.7版本在去年下半年的時候就随大快的DKH1.6版本同時釋出了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一個簡單的彙總介紹。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicWZwpmLlBzM1IDNhNmN4IjYkJWYklDM4QDN1UmY3MDOhljM5QTYwYWMhFWY48CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.jpeg)
HanLP 是由一系列模型與算法組成的 Java 工具包,目标是普及自然語言處理在生産環境中的應用。HanLP 具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。 在提供豐富功能的同時,HanLP 内部子產品堅持低耦合、模型堅持惰性加載、服務堅持靜态提供、詞典堅持明文釋出,使用非常友善,同時自帶一些語料處理工具,幫助使用者訓練自己的模型。
1.7.0 更新如下:新增文本聚類子產品(k-means和repeated bisection)
詞法分析器新增流水線模式
詞法分析器加入規則 enableRuleBasedSegment #991
支援通過 JVM 的啟動參數指定 data 路徑:java -DHANLP_ROOT=/opt/hanlp 則加載/opt/hanlp/data #983
分詞斷句支援指定斷句顆粒 #1018
CustomDictionary.insert("新詞語", "詞性标簽") 支援省略頻次
NeuralNetworkDependencyParser 構造函數接受 Segment
TextRankKeyword 支援構造自任意分詞器
優化雙數組 trie 樹,建構後自動 shrink 到最低記憶體 #984
修訂簡繁詞典
微調 ngram 和 nr 模型
新資料包 data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1
Portable 版同步更新到 v1.7.0
HanLP v1.7.1 更新内容:新增可自定義使用者詞典的維特比分詞器 @AnyListen
利用 BufferedOutputStream 加速緩存生成,快37倍
自定義詞典相容含有空格的路徑,fix #1025
增加 isCustomNature 方法
使熱更新産生的緩存檔案包含使用者詞性,fix #1028
修複可變 DAT 的 entrySet 方法,fix #1038
微調 ngram,簡繁等
新資料包 data-for-1.7.1.zip MD5 = 9b8faa7fc7fddb24e27da27bd404126d
Portable 版同步更新到 v1.7.1