天天看點

NLPIR文本智能分詞是語義挖掘的關鍵

  詞法分析是自然語言處理的基礎與關鍵。在中文自然語言進行中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫機關,詞語之間沒有明顯的區分标記,是以進行中文自然語言處理通常是先将漢國文本中的字元串切分成合理的詞語序列,然後再在此基礎上進行其它分析處理。中文分詞是中文資訊處理的一個基礎環節,已被廣泛應用于中文文本處理、資訊提取、文本挖掘等應用中。

  一個自然語言處理系統必須考慮許多語言自身與結構方面的知識——如什麼是詞、詞如何組成句子、詞的意義是什麼、詞的意義對句子意義有什麼貢獻等,但這些卻還是遠遠不夠的。比如一個系統如果要回答提問或者直接參與對話,它不僅需要知道很多語言結構的知識,而且還要知道人類世界的一般性知識并具備人類的推理能力。是以許多語言學家通常把對語言的分析和了解分成如下幾個主要層次:詞法分析、句法分析、語義分析、篇章分析。

  首先,詞法分析——主要包括分詞、詞性标注、詞義消歧、新詞識别等——是通過分詞、詞頻和位置統計等手段獲得相關語言資訊。

  其次,句法分析通過使句子成分特征化來分析句子結構特征,通過對句子和短語結構的分析找出詞、短語等的互相關系以及各自在句中的作用,并以一定結構來表達諸如從屬關系、成分關系等,目的是判定句子中各種結構性成分。

  第三,為了了解一個提問,一般還需要更多的語義和語用知識來幫助了解句子的意思,通過分析找出詞義、結構意義及其結合意義,進而确定句子所表達的真正含義,而語義資訊的标記需要包含概念完全集與關系圖的支援,需要對句法成分做出細緻的語義分類,它一般應包括語言層面(即反映語言表面現象的知識,如同義詞關系、層次關系等)、本體論層面(描述概念之間複雜的語義關系)、常識層面等。雖然這項工作浩繁,但目前已經取得了一些初步成果。

  最後,篇章分析用于對多個語句、段落之間在結構或者語義上的互相關系進行分析。

  NLPIR分詞系統是經過多年研究工作積累,主要功能包括中文分詞;英文分詞;詞性标注;命名實體識别;新詞識别;關鍵詞提取;支援使用者專業詞典與微網誌分析。NLPIR系統支援多種編碼(GBK編碼、UTF8編碼、BIG5編碼)、多種作業系統、多種開發語言與平台。

  NLPIR/ICTCLAS2018分詞系統主要功能介紹

  1)中英文混合分詞功能

  自動對中文英文資訊進行分詞與詞性标注功能,涵蓋了中文分詞、英文分詞、詞性标注、未登入詞識别與使用者詞典等功能。

  2)關鍵詞提取功能

  采用交叉資訊熵的算法自動計算關鍵詞,包括新詞與已知詞,

  3)新詞識别與自适應分詞功能

  從較長的文本内容中,基于資訊交叉熵自動發現新特征語言,并自适應測試語料的語言機率分布模型,實作自适應分詞。

  4)使用者專業詞典功能

  可以單條導入使用者詞典,也可以批量導入使用者詞典。如可以定“舉報信 敏感點”,其中舉報信是使用者詞,敏感點是使用者自定義的詞性标記。

  ICTCLAS分詞法利用詞典比對進行初切分得到一個切分詞圖,然後利用詞頻資訊求詞圖N條最短路徑的N-最短路徑法。還有些研究者利用詞典找出所有的交叉歧義,然後利用Bigram語言模型或其變形來消除歧義。

繼續閱讀