天天看點

自然語言處理入門基礎之hanlp詳解

自然語言處理定義:

自然語言處理是一門計算機科學、人工智能以及語言學的交叉學科。雖然語言隻是人工智能的一部分(人工智能還包括計算機視覺等),但它是非常獨特的一部分。這個星球上有許多生物擁有超過人類的視覺系統,但隻有人類才擁有這麼進階的語言。

自然語言處理的目标是讓計算機處理或說“了解”自然語言,以完成有意義的任務,比如訂機票購物或QA等。完全了解和表達語言是極其困難的,完美的語言了解等效于實作人工智能。

自然語言處理涉及的幾個層次:

自然語言處理入門基礎之hanlp詳解

自然語言處理的幾個層次

作為輸入一共有兩個來源,語音與文本。是以第一級是語音識别和OCR或分詞(事實上,跳過分詞雖然理所當然地不能做句法分析,但字元級也可以直接做不少應用)。接下來是形态學,援引《統計自然語言處理》中的定義:形态學(morphology):形态學(又稱“詞彙形态學”或“詞法”)是語言學的一個分支,研究詞的内部結構,包括屈折變化和構詞法兩個部分。由于詞具有語音特征、句法特征和語義特征,形态學處于音位學、句法學和語義學的結合部位,是以形态學是每個語言學家都要關注的一門學科。

Hanlp自然語言處理開發包:

從事大資料方面工作的人對自然語言處理必然都是不陌生的,在Github上使用者量最多的開源漢語自然語言處理工具是HanLP。HanLP的初始版本是在2014年初開發的,3月份的時候開始在Github上開源。2015年的時候內建在了大快搜尋的DKNLP中,目前大快已經把DKNLP技術成果已經開源,并且整體裝如HanLP項目,HanLP的版本已經到了V1.50。

Hanlp自然語言處理技術優勢:

支援中文分詞(N-最短路分詞、CRF分詞、索引分詞、使用者自定義詞調、詞性标注),命名實體識别(中國人民、音譯人民、日本人民,地名,實體機構名識别),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析(MaxEnt依存句法分析、神經網絡依存句法分析)。提供Lucene查件,相容Solr和ElasticSearch。

自然語言處理入門基礎之hanlp詳解

hanlp自然語言處理技術

Hanlp自然語言處理應用領域:

Hanlp已經被廣泛應用于Lucene、Solr、ElasticSearch、hadoop、android、Resin等平台,有大量開源作者開發各種查件與拓展,并且被包裝或移植到Python、C#、R、JavaScript等語言上去。

自然語言處理入門基礎之hanlp詳解

hanlp自然語言處理應用領域

文章來源于網絡

繼續閱讀