Hanlp是由一系列模型與算法組成的工具包,目标是普及自然語言處理在生産環境中的應用。Hanlp具備功能完善、性能高效、架構清洗、語料時新、可自定義的特點;提供詞法分析(中文分詞、磁性标注、命名實體識别)、句法分析、文本分類和情感分析等功能。
本篇将使用者輸入的語句根據詞庫進行分詞、關鍵詞提取、摘要提取、詞庫維護。
工具類名稱:DKNLPBase
1、标準分詞
方法簽名:List StandardTokenizer.segment(String txt);
傳回:分詞清單。
簽名參數說明:txt:要分詞的語句。
範例:下例驗證一段話第5個分詞是阿法狗。
程式清單1
public void testSegment() throws Exception
{
String text = "商品和服務";
List<Term> termList = DKNLPBase.segment(text);
assertEquals("商品", termList.get(0).word);
assertEquals("和", termList.get(1).word);
assertEquals("服務", termList.get(2).word);
text = "柯傑解說“李世石VS阿法狗第二局” 結局竟是這樣";
termList = DKNLPBase.segment(text);
assertEquals("阿法狗", termList.get(5).word); // 能夠識别"阿法狗"
}
2、關鍵詞提取
方法簽名:List extractKeyword(String txt,int keySum);
傳回:關鍵詞清單.
簽名參數說明:txt:要提取關鍵詞的語句,keySum要提取關鍵詞的數量
範例:給出一段話提取一個關鍵詞是“程式員”。
程式清單2
public void testExtractKeyword() throws Exception
{
String content = "程式員(英文Programmer)是從事程式開發、維護的專業人員。" +
"一般将程式員分為程式設計人員和程式編碼人員," +
"但兩者的界限并不非常清楚,特别是在中國。" +
"軟體從業人員分為初級程式員、進階程式員、系統" +
"分析員和項目經理四大類。";
List<String> keyword = DKNLPBase.extractKeyword(content, 1);
assertEquals(1, keyword.size());
assertEquals("程式員", keyword.get(0));
}
3、短語提取
方法簽名:List extractPhrase(String txt, int phSum);
傳回:短語
簽名參數說明:txt:要提取短語的語句,phSum短語數量
範例:給出一段文字,能代表文章的五個短語,第一個短語是算法工程師。
程式清單3
public void testExtractPhrase() throws Exception
{
String text = "算法工程師\n" +
"算法(Algorithm)是一系列解決問題的清晰指令,也就是說,能夠對一定規範的輸入,在有限時間内獲得所要求的輸出。" +
"如果一個算法有缺陷,或不适合于某個問題,執行這個算法将不會解決這個問題。不同的算法可能用不同的時間、" +
"空間或效率來完成同樣的任務。一個算法的優劣可以用空間複雜度與時間複雜度來衡量。算法工程師就是利用算法處理事物的人。\n" +
"\n" +
"1職位簡介\n" +
"算法工程師是一個非常高端的職位;\n" +
"專業要求:計算機、電子、通信、數學等相關專業;\n" +
"學曆要求:大學及其以上的學曆,大多數是碩士學曆及其以上;\n" +
"語言要求:英語要求是熟練,基本上能閱讀國外專業書刊;\n" +
"必須掌握計算機相關知識,熟練使用仿真工具MATLAB等,必須會一門程式設計語言。\n" +
"\n" +
"2研究方向\n" +
"視訊算法工程師、圖像處理算法工程師、音頻算法工程師 通信基帶算法工程師\n" +
"\n" +
"3目前國内外狀況\n" +
"目前國内從事算法研究的工程師不少,但是進階算法工程師卻很少,是一個非常緊缺的專業工程師。" +
"算法工程師根據研究領域來分主要有音頻/視訊算法處理、圖像技術方面的二維資訊算法處理和通信實體層、" +
"雷達信号處理、生物醫學信号處理等領域的一維資訊算法處理。\n" +
"在計算機音視訊和圖形圖像技術等二維資訊算法處理方面目前比較先進的視訊處理算法:機器視覺成為此類算法研究的核心;" +
"另外還有2D轉3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),運動估計運動補償算法" +
"(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),縮放算法(scaling)," +
"銳化處理算法(Sharpness),超分辨率算法(Super Resolution),手勢識别(gesture recognition),人臉識别(face recognition)。\n" +
"在通信實體層等一維資訊領域目前常用的算法:無線領域的RRM、RTT,傳送領域的調制解調、信道均衡、信号檢測、網絡優化、信号分解等。\n" +
"另外資料挖掘、網際網路搜尋算法也成為當今的熱門方向。\n" +
"算法工程師逐漸往人工智能方向發展。";
List<String> phraseList = DKNLPBase.extractPhrase(text, 5);
assertEquals(5, phraseList.size());
assertEquals("算法工程師", phraseList.get(0));
}
4、自動摘要
方法簽名:List extractSummary(String txt, int sSum);
傳回:摘要語句
簽名參數說明:txt:要提取摘要的語句,sSum摘要句子數量
範例:自動提取三句摘要句子。
程式清單4
public void testExtractSummary() throws Exception
{
String document = "算法可大緻分為基本算法、資料結構的算法、數論算法、計算幾何的算法、圖的算法、動态規劃以及數值分析、加密算法、排序算法、檢索算法、随機化算法、并行算法、厄米變形模型、随機森林算法。\n" +
"算法可以寬泛的分為三類,\n" +
"一,有限的确定性算法,這類算法在有限的一段時間内終止。他們可能要花很長時間來執行指定的任務,但仍将在一定的時間内終止。這類算法得出的結果常取決于輸入值。\n" +
"二,有限的非确定算法,這類算法在有限的時間内終止。然而,對于一個(或一些)給定的數值,算法的結果并不是唯一的或确定的。\n" +
"三,無限的算法,是那些由于沒有定義終止定義條件,或定義的條件無法由輸入的資料滿足而不終止運作的算法。通常,無限算法的産生是由于未能确定的定義終止條件。";
List<String> sentenceList = DKNLPBase.extractSummary(document, 3);
assertEquals(3, sentenceList.size());
5、拼音轉換
方法簽名:List convertToPinyinList(txt);
傳回:拼音清單
簽名參數說明:txt:要轉換拼音的語句
範例:給出一段文字中第二個字的拼音。
程式清單5
public void testConvertToPinyinList() throws Exception
{
String text = "鴨綠江的綠跟綠色的綠不是一個讀音";
List<Pinyin> pinyinList = DKNLPBase.convertToPinyinList(text);
assertEquals(text.length(), pinyinList.size());
assertEquals(Pinyin.lu4, pinyinList.get(1));
6、添加詞庫
方法簽名:String addCK(String filePath);
傳回:空—完成,其它—錯誤資訊
簽名參數說明:filePath:新的詞庫檔案,每個詞使用回車換行分隔。
範例:讀取新詞庫檔案,将檔案内容中第7個詞“新美“添加到詞庫。
程式清單6
public void testAddCK() throws Exception
{
DKNLPBase.addCK("src/test/resources/custom_dictionary.txt");
String text = "網際網路家裝品質問題頻繁 新美大殺入勝算幾何";
List<Term> termList = DKNLPBase.segment(text);
assertEquals("新美", termList.get(6).word);
7、新詞發現
方法簽名:
NewWordDiscover discover = new NewWordDiscover(max_word_len, min_freq, min_entropy, min_aggregation, filter);
discover.discovery(text, size);
簽名參數說明:max_word_len: 控制識别結果中最長的詞語長度,預設值是 4;該值越大,運算量越大,結果中出現短語的數量也會越多。
min_freq: 控制結果中詞語的最低頻率,低于該頻率的将會被過濾掉,減少一 些運算量。由于結果是按照頻率排序的,是以該參數其實意義不大。實際上,在接口中直接設為了0,意思是所有候選詞都會出來。
min_entropy: 控制結果中詞語的最低資訊熵(資訊的不确定度)的值,一般取 0.5 左右。該值越 大,越短的詞語就越容易被提取出來。
min_aggregation: 控制結果中詞語的最低互資訊值(字和字之間的關聯性),一般取 50 到 200.該值 越大,越長的詞語就越容易被提取出來,有時候會出現一些短語。
Filter: 設為 true 的時候将使用内部詞庫過濾掉“舊詞”。
Text:用于新詞發現的文檔。
Size:新詞個數。
範例:新詞發現。
程式清7
public void testFindNewWord() {
NewWordDiscover discover = new NewWordDiscover(4, 0.0f, 0.5f, 100f, true);
//讀取檔案夾下是以文檔并合并成一篇文檔用于新詞發現
StringBuilder sbText = new StringBuilder();
File[] txtFiles = new File("src/test/resources/搜狗文本分類語料庫微型版/健康").listFiles();
int i = 0;
for (File file : txtFiles)
{
System.out.printf("[%d / %d] 讀取 %s 中...\n", ++i, txtFiles.length, file.getName());
sbText.append(IOUtil.readTxt(file.getPath()));
if (i == 100) break;
}
System.out.printf("對長度為%d的語料進行分析中...\n", sbText.length());
List<WordInfo> wordInfoList = discover.discovery(sbText.toString(), 10);
//列印出發現的新詞
for (WordInfo wordInfo : wordInfoList) {
System.out.println(wordInfo.text);
文章來源于網絡