1.自然語言處理要解決哪些任務?
(1)解剖類:分詞、詞性标注、命名實體識别、word2vec
(2)生成類:文本分類、主題識别、關鍵詞提取、自動摘要、情感分析、文本生成
(3)情感分析、智能問答系統和知識圖譜
為了直覺了解這些任務,推薦這個網站:http://ictclas.nlpir.org/nlpir/
比較商業成熟一些的網站:http://www.datagrand.com/
2.對應 不同的任務所需要掌握的技能樹有哪些?
資料清洗:正規表達式比對
基礎處理:one hot,bag of words(文本數字化),tf-idf
分詞:英文nltk,spacy, 中文jieba
詞性标注:英文:nltk,spacy,中文:jieba,CRF(條件随機場),HMM(隐馬)
命名實體識别:英文: nltk,spacy; 中文:CRF、Stanford CoreNLP
主題識别:plsa和LDA
文本分類:Word2vec+CNN
文本生成:RNN, LSTM
情感分析:關鍵詞打分機制,比如AFINN-111
3.正規表達式比對:https://blog.csdn.net/qq_28633249/article/details/77686976
這篇部落格講得挺全的,另外附上規則表。