1. Java自然語言處理 LingPipe
LingPipe是一個自然語言處理的Java開源工具包。LingPipe目前已有很豐富的功能,包括主題分類(Top Classification)、命名實體識别(Named Entity Recognition)、詞性标注(Part-of Speech Tagging)、句題檢測(Sentence Detection)、查詢拼寫檢查(Query Spell Checking)、興趣短語檢測(Interseting Phrase Detection)、聚類(Clustering)、字元語言模組化(Character Language Modeling)、醫學文獻下載下傳/解析/索引(MEDLINE Download, Parsing and Indexing)、資料庫文本挖掘(Database Text Mining)、中文分詞(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、語言辨識(Language Identification)等API。
下載下傳連結:http://alias-i.com/lingpipe/web/download.html
2.中文自然語言處理工具包 FudanNLP
FudanNLP主要是為中文自然語言處理而開發的工具包,也包含為實作這些任務的機器學習算法和資料集。
示範位址: http://jkx.fudan.edu.cn/nlp/query
FudanNLP目前實作的内容如下:
- 中文處理工具
- 中文分詞
- 詞性标注
- 實體名識别
- 句法分析
- 時間表達式識别
- 資訊檢索
- 文 本分類
- 新聞聚類
- Lucene中文分詞
- 機 器學習
- Average Perceptron
- Passive-aggressive Algorithm
- K-means
- Exact Inference
下載下傳連結:http://code.google.com/p/fudannlp/downloads/list
3.自然語言處理工具 OpenNLP
OpenNLP 是一個機器學習工具包,用于處理自然語言文本。支援大多數常用的 NLP 任務,例如:辨別化、句子切分、部分詞性标注、名稱抽取、組塊、解析等。
4.自然語言處理工具 CRF++
CRF++是著名的條件随機場開源工具,也是目前綜合性能最佳的CRF工具。CRF++本身已經是個比較老的工具了,但鑒于其性能較好,仍然是自然語言處理很重要的一個工具。
NlpBamboo 中文分詞庫在使用該工具。
下載下傳連結:http://sourceforge.net/projects/crfpp/files/