天天看点

Word2vec与LDA的聚类区别

1、首先,Word2vec是词聚类,LDA是主题词聚类

2、也许在方法模型上,他们两者是不同的,但是产生的结果从语义上来说,都是相当于近义词的聚类,只不过LDA是基于隐含主题的,WORD2VEC是基于词的上下文的,或者说LDA关注doc和word的共现,而word2vec真正关注的是word和context的共现

3、更严谨的说,词向量所体现的是语义(semantic)和语法(syntactic)这些 low-level的信息。而LDA的主题词表现的是更 high-level的文章主题(topic)这一层的信息。比如:

1)计算词的相似度。同样在电子产品这个主题下,“苹果”是更接近于“三星”还是“小米”?

2)词的类比关系:vector(小米)- vector(苹果)+ vector(乔布斯)近似于 vector(雷军)。

3)计算文章的相似度。这个LDA也能做但是效果不好。而用词向量,即使在文章topic接近的情况下,计算出的相似度也能体现相同、相似、相关的区别。

反过来说,想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能,“苹果”和“小米”被聚到了一类,而“乔布斯”和“雷军”则聚到另一类。

这种差别,本质上说是因为Word2vec利用的是词与上下文的共现,而LDA利用的是词与文章之间的共现。

PS. 说起来,拿LDA和doc2vec比较才比较合理啊~~ 4、word2vec+kmeans 和lda

word2vec+kmeans是先用word2vec把词表示为向量,然后用kmeans聚类,聚类的结果 应该是挺好的,但是和lda比,多了一些无用词的聚类,比如,我拿技术博客做预料,用lda聚类,聚出来的  都是技术相关的,因为lda是有个主题提取的过程;

而word2vec除了聚出一些技术的类,比如

结点

根节点

此树

结点数目

空树

子树中

子树结

叶子结点

子树

历根结

叶子

前趋

树上

第一棵

历树

二叉树

左子结

这棵

子树根

一棵

子树递

前驱

任一结

孩子

节点均

父节点

rightchild

后继结

树种

子结点

叶结点

右子树

三叉

左子树

这颗

整棵

兄弟结点

叶结

leftchild

满二叉

满二叉树

后继

整棵树

左子

叶子节点

rchild

孩子结点

树节点

fileinputstream

newfileinputstream

newfileoutputstream

fileoutputstream

向文件写入

输入流

readchar

inputstream

fos

outputstream

printstream

readbyte

readstring

filereader

printwriter

writeto

bufferreader

writer

reader

readlong

bufferedoutputstream

bufferedinputstream

bufferwriter

stringbufferinputstream

outstream

pushbackinputstream

instream

filewriter

raf

readline

datastream

stringreader

bytearrayinputstream

writelines

getchannel

dataoutputstream

filterreader

stringwriter

从文件

readbytes

datainputstream

bufferedreader

bytearrayoutputstream

streamwriter

writebytes

randomaccessfile

还聚出非技术类的

算出

加起来

求出

之和

算出来

就求

所求

求得

易得

减去

易知

无解

可得

题中

上数

则有

记为

数了

本题

数里

可求

找出

18次

种数

乘起来

连加

数算

求异

规律

乘积

算下

算过

凑出

二倍

理得

是多少

推求

数对

数模

0数

乘了

数遍

奇偶

累加

多解

数出

多1个推求 

年度

五天

月初

上个月

7月

12月

09月

月底

月末

一个月

这一天

05月

31日

几月

一年

4月

10年

5日

11日

6日

当天

15日

那天

27日

第一年

14日

国庆节

上月

每年

13日

2013年

28日

7日

25号

5月

日子

今天是

4年

8日

开始我是不太理解,看了上面的原理解释,瞬间释怀,不得不说 word2vec聚相关的词还是很牛的