1、首先,Word2vec是詞聚類,LDA是主題詞聚類
2、也許在方法模型上,他們兩者是不同的,但是産生的結果從語義上來說,都是相當于近義詞的聚類,隻不過LDA是基于隐含主題的,WORD2VEC是基于詞的上下文的,或者說LDA關注doc和word的共現,而word2vec真正關注的是word和context的共現
3、更嚴謹的說,詞向量所展現的是語義(semantic)和文法(syntactic)這些 low-level的資訊。而LDA的主題詞表現的是更 high-level的文章主題(topic)這一層的資訊。比如:
1)計算詞的相似度。同樣在電子産品這個主題下,“蘋果”是更接近于“三星”還是“小米”?
2)詞的類比關系:vector(小米)- vector(蘋果)+ vector(喬布斯)近似于 vector(雷軍)。
3)計算文章的相似度。這個LDA也能做但是效果不好。而用詞向量,即使在文章topic接近的情況下,計算出的相似度也能展現相同、相似、相關的差別。
反過來說,想用詞向量的聚類去得到topic這一級别的資訊也是很難的。很有可能,“蘋果”和“小米”被聚到了一類,而“喬布斯”和“雷軍”則聚到另一類。
這種差别,本質上說是因為Word2vec利用的是詞與上下文的共現,而LDA利用的是詞與文章之間的共現。
PS. 說起來,拿LDA和doc2vec比較才比較合理啊~~ 4、word2vec+kmeans 和lda
word2vec+kmeans是先用word2vec把詞表示為向量,然後用kmeans聚類,聚類的結果 應該是挺好的,但是和lda比,多了一些無用詞的聚類,比如,我拿技術部落格做預料,用lda聚類,聚出來的 都是技術相關的,因為lda是有個主題提取的過程;
而word2vec除了聚出一些技術的類,比如
結點
根節點
此樹
結點數目
空樹
子樹中
子樹結
葉子結點
子樹
曆根結
葉子
前趨
樹上
第一棵
曆樹
二叉樹
左子結
這棵
子樹根
一棵
子樹遞
前驅
任一結
孩子
節點均
父節點
rightchild
後繼結
樹種
子結點
葉結點
右子樹
三叉
左子樹
這顆
整棵
兄弟結點
葉結
leftchild
滿二叉
滿二叉樹
後繼
整棵樹
左子
葉子節點
rchild
孩子結點
樹節點
fileinputstream
newfileinputstream
newfileoutputstream
fileoutputstream
向檔案寫入
輸入流
readchar
inputstream
fos
outputstream
printstream
readbyte
readstring
filereader
printwriter
writeto
bufferreader
writer
reader
readlong
bufferedoutputstream
bufferedinputstream
bufferwriter
stringbufferinputstream
outstream
pushbackinputstream
instream
filewriter
raf
readline
datastream
stringreader
bytearrayinputstream
writelines
getchannel
dataoutputstream
filterreader
stringwriter
從檔案
readbytes
datainputstream
bufferedreader
bytearrayoutputstream
streamwriter
writebytes
randomaccessfile
還聚出非技術類的
算出
加起來
求出
之和
算出來
就求
所求
求得
易得
減去
易知
無解
可得
題中
上數
則有
記為
數了
本題
數裡
可求
找出
18次
種數
乘起來
連加
數算
求異
規律
乘積
算下
算過
湊出
二倍
理得
是多少
推求
數對
數模
0數
乘了
數遍
奇偶
累加
多解
數出
多1個推求
年度
五天
月初
上個月
7月
12月
09月
月底
月末
一個月
這一天
05月
31日
幾月
一年
4月
10年
5日
11日
6日
當天
15日
那天
27日
第一年
14日
國慶節
上月
每年
13日
2013年
28日
7日
25号
5月
日子
今天是
4年
8日
開始我是不太了解,看了上面的原了解釋,瞬間釋懷,不得不說 word2vec聚相關的詞還是很牛的