天天看點

Word2vec與LDA的聚類差別

1、首先,Word2vec是詞聚類,LDA是主題詞聚類

2、也許在方法模型上,他們兩者是不同的,但是産生的結果從語義上來說,都是相當于近義詞的聚類,隻不過LDA是基于隐含主題的,WORD2VEC是基于詞的上下文的,或者說LDA關注doc和word的共現,而word2vec真正關注的是word和context的共現

3、更嚴謹的說,詞向量所展現的是語義(semantic)和文法(syntactic)這些 low-level的資訊。而LDA的主題詞表現的是更 high-level的文章主題(topic)這一層的資訊。比如:

1)計算詞的相似度。同樣在電子産品這個主題下,“蘋果”是更接近于“三星”還是“小米”?

2)詞的類比關系:vector(小米)- vector(蘋果)+ vector(喬布斯)近似于 vector(雷軍)。

3)計算文章的相似度。這個LDA也能做但是效果不好。而用詞向量,即使在文章topic接近的情況下,計算出的相似度也能展現相同、相似、相關的差別。

反過來說,想用詞向量的聚類去得到topic這一級别的資訊也是很難的。很有可能,“蘋果”和“小米”被聚到了一類,而“喬布斯”和“雷軍”則聚到另一類。

這種差别,本質上說是因為Word2vec利用的是詞與上下文的共現,而LDA利用的是詞與文章之間的共現。

PS. 說起來,拿LDA和doc2vec比較才比較合理啊~~ 4、word2vec+kmeans 和lda

word2vec+kmeans是先用word2vec把詞表示為向量,然後用kmeans聚類,聚類的結果 應該是挺好的,但是和lda比,多了一些無用詞的聚類,比如,我拿技術部落格做預料,用lda聚類,聚出來的  都是技術相關的,因為lda是有個主題提取的過程;

而word2vec除了聚出一些技術的類,比如

結點

根節點

此樹

結點數目

空樹

子樹中

子樹結

葉子結點

子樹

曆根結

葉子

前趨

樹上

第一棵

曆樹

二叉樹

左子結

這棵

子樹根

一棵

子樹遞

前驅

任一結

孩子

節點均

父節點

rightchild

後繼結

樹種

子結點

葉結點

右子樹

三叉

左子樹

這顆

整棵

兄弟結點

葉結

leftchild

滿二叉

滿二叉樹

後繼

整棵樹

左子

葉子節點

rchild

孩子結點

樹節點

fileinputstream

newfileinputstream

newfileoutputstream

fileoutputstream

向檔案寫入

輸入流

readchar

inputstream

fos

outputstream

printstream

readbyte

readstring

filereader

printwriter

writeto

bufferreader

writer

reader

readlong

bufferedoutputstream

bufferedinputstream

bufferwriter

stringbufferinputstream

outstream

pushbackinputstream

instream

filewriter

raf

readline

datastream

stringreader

bytearrayinputstream

writelines

getchannel

dataoutputstream

filterreader

stringwriter

從檔案

readbytes

datainputstream

bufferedreader

bytearrayoutputstream

streamwriter

writebytes

randomaccessfile

還聚出非技術類的

算出

加起來

求出

之和

算出來

就求

所求

求得

易得

減去

易知

無解

可得

題中

上數

則有

記為

數了

本題

數裡

可求

找出

18次

種數

乘起來

連加

數算

求異

規律

乘積

算下

算過

湊出

二倍

理得

是多少

推求

數對

數模

0數

乘了

數遍

奇偶

累加

多解

數出

多1個推求 

年度

五天

月初

上個月

7月

12月

09月

月底

月末

一個月

這一天

05月

31日

幾月

一年

4月

10年

5日

11日

6日

當天

15日

那天

27日

第一年

14日

國慶節

上月

每年

13日

2013年

28日

7日

25号

5月

日子

今天是

4年

8日

開始我是不太了解,看了上面的原了解釋,瞬間釋懷,不得不說 word2vec聚相關的詞還是很牛的