天天看點

自然語言處理大綱及正規表達式

1.自然語言處理要解決哪些任務?

(1)解剖類:分詞、詞性标注、命名實體識别、word2vec

(2)生成類:文本分類、主題識别、關鍵詞提取、自動摘要、情感分析、文本生成

(3)情感分析、智能問答系統和知識圖譜

為了直覺了解這些任務,推薦這個網站:http://ictclas.nlpir.org/nlpir/

比較商業成熟一些的網站:http://www.datagrand.com/

2.對應 不同的任務所需要掌握的技能樹有哪些?

資料清洗:正規表達式比對

基礎處理:one hot,bag of words(文本數字化),tf-idf

分詞:英文nltk,spacy, 中文jieba

詞性标注:英文:nltk,spacy,中文:jieba,CRF(條件随機場),HMM(隐馬)

命名實體識别:英文: nltk,spacy; 中文:CRF、Stanford CoreNLP

主題識别:plsa和LDA

文本分類:Word2vec+CNN

文本生成:RNN, LSTM

情感分析:關鍵詞打分機制,比如AFINN-111

3.正規表達式比對:https://blog.csdn.net/qq_28633249/article/details/77686976

這篇部落格講得挺全的,另外附上規則表。

自然語言處理大綱及正規表達式
自然語言處理大綱及正規表達式
自然語言處理大綱及正規表達式
自然語言處理大綱及正規表達式
自然語言處理大綱及正規表達式

繼續閱讀