天天看點

word2vec 自己訓練中文語料(1) 準備文本(2)對資料進行分詞處理(3)訓練與實驗

可以用爬蟲爬,也可以去下載下傳,必須是全文本。

因為英文但此隻見是空格是以不需要分詞,二中文需要分詞,

中文分詞工具還是很多的,我自己常用的:

- 中科院nlpir

- 哈工大ltp

- 結巴分詞

注意:分詞後儲存的檔案将會作為word2vec的輸入檔案進行訓練

word2vec 自己訓練中文語料(1) 準備文本(2)對資料進行分詞處理(3)訓練與實驗

python 需要先安裝gensim,參考http://blog.csdn.net/u013378306/article/details/54629643