天天看點

自然語言進行中文 工具包

1. Java自然語言處理 LingPipe

LingPipe是一個自然語言處理的Java開源工具包。LingPipe目前已有很豐富的功能,包括主題分類(Top Classification)、命名實體識别(Named Entity Recognition)、詞性标注(Part-of Speech Tagging)、句題檢測(Sentence Detection)、查詢拼寫檢查(Query Spell Checking)、興趣短語檢測(Interseting Phrase Detection)、聚類(Clustering)、字元語言模組化(Character Language Modeling)、醫學文獻下載下傳/解析/索引(MEDLINE Download, Parsing and Indexing)、資料庫文本挖掘(Database Text Mining)、中文分詞(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、語言辨識(Language Identification)等API。

下載下傳連結:http://alias-i.com/lingpipe/web/download.html

2.中文自然語言處理工具包 FudanNLP

FudanNLP主要是為中文自然語言處理而開發的工具包,也包含為實作這些任務的機器學習算法和資料集。

示範位址: http://jkx.fudan.edu.cn/nlp/query

FudanNLP目前實作的内容如下:

  1. 中文處理工具
    1. 中文分詞
    2. 詞性标注
    3. 實體名識别
    4. 句法分析
    5. 時間表達式識别
  2. 資訊檢索
    1. 文 本分類
    2. 新聞聚類
    3. Lucene中文分詞
  3. 機 器學習
    1. Average Perceptron
    2. Passive-aggressive Algorithm
    3. K-means
    4. Exact Inference

下載下傳連結:http://code.google.com/p/fudannlp/downloads/list

3.自然語言處理工具 OpenNLP

OpenNLP 是一個機器學習工具包,用于處理自然語言文本。支援大多數常用的 NLP 任務,例如:辨別化、句子切分、部分詞性标注、名稱抽取、組塊、解析等。

4.自然語言處理工具 CRF++

CRF++是著名的條件随機場開源工具,也是目前綜合性能最佳的CRF工具。CRF++本身已經是個比較老的工具了,但鑒于其性能較好,仍然是自然語言處理很重要的一個工具。

NlpBamboo 中文分詞庫在使用該工具。

下載下傳連結:http://sourceforge.net/projects/crfpp/files/

繼續閱讀