可以用爬蟲爬,也可以去下載下傳,必須是全文本。
因為英文但此隻見是空格是以不需要分詞,二中文需要分詞,
中文分詞工具還是很多的,我自己常用的:
- 中科院nlpir
- 哈工大ltp
- 結巴分詞
注意:分詞後儲存的檔案将會作為word2vec的輸入檔案進行訓練
python 需要先安裝gensim,參考http://blog.csdn.net/u013378306/article/details/54629643
可以用爬蟲爬,也可以去下載下傳,必須是全文本。
因為英文但此隻見是空格是以不需要分詞,二中文需要分詞,
中文分詞工具還是很多的,我自己常用的:
- 中科院nlpir
- 哈工大ltp
- 結巴分詞
注意:分詞後儲存的檔案将會作為word2vec的輸入檔案進行訓練
python 需要先安裝gensim,參考http://blog.csdn.net/u013378306/article/details/54629643