Hanlp1.7版本的新增功能一覽

2019-03-21 23:50:00

Hanlp1.7版本在去年下半年的時候就随大快的DKH1.6版本同時釋出了，截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一個簡單的彙總介紹。

HanLP 是由一系列模型與算法組成的 Java 工具包，目标是普及自然語言處理在生産環境中的應用。HanLP 具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。在提供豐富功能的同時，HanLP 内部子產品堅持低耦合、模型堅持惰性加載、服務堅持靜态提供、詞典堅持明文釋出，使用非常友善，同時自帶一些語料處理工具，幫助使用者訓練自己的模型。

1.7.0 更新如下：

新增文本聚類子產品（k-means和repeated bisection）

詞法分析器新增流水線模式

詞法分析器加入規則 enableRuleBasedSegment #991

支援通過 JVM 的啟動參數指定 data 路徑：java -DHANLP_ROOT=/opt/hanlp 則加載/opt/hanlp/data #983

分詞斷句支援指定斷句顆粒 #1018

CustomDictionary.insert("新詞語", "詞性标簽") 支援省略頻次

NeuralNetworkDependencyParser 構造函數接受 Segment

TextRankKeyword 支援構造自任意分詞器

優化雙數組 trie 樹，建構後自動 shrink 到最低記憶體 #984

修訂簡繁詞典

微調 ngram 和 nr 模型

新資料包 data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1

Portable 版同步更新到 v1.7.0

HanLP v1.7.1 更新内容：

新增可自定義使用者詞典的維特比分詞器 @AnyListen

利用 BufferedOutputStream 加速緩存生成，快37倍

自定義詞典相容含有空格的路徑，fix #1025

增加 isCustomNature 方法

使熱更新産生的緩存檔案包含使用者詞性，fix #1028

修複可變 DAT 的 entrySet 方法，fix #1038

微調 ngram，簡繁等

新資料包 data-for-1.7.1.zip MD5 = 9b8faa7fc7fddb24e27da27bd404126d

Portable 版同步更新到 v1.7.1

Hanlp1.7版本的新增功能一覽

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method