天天看點

微網誌上關于LDA和PLSA的讨論

微網誌上關于LDA和PLSA的讨論

自己對PLSA和LDA從來沒去仔細的推導和實作過,資質太差,也沒專門拿出時間來去搞。最近了解了一下,已經沒多麼的難了。打算最近寫個自己了解、推導、代碼、例子。

偶然看見微網誌上餘凱、張棟等人關于這個問題的探讨,摘錄下來,為自己以後對這兩個模型做推導或者實作的時候,有些指導的意義:

(如果您不願意我将您的觀點記錄再次,那麼給我說,我去掉,我隻是覺得,在我自己還沒有了解和觀點的情況下,這些對我有指導意義)

===

@老師木 PCA,及其差不多等價的LSI, pLSI, LDA(topic model) 相對于k-means的進步之處在于,使用基重構樣例時不再限定僅用一個基來表示,正是這一點使得LSI處理文本時可以反映同義詞、多義詞現象。Hongyuan Zha, Chris Ding等人的工作也揭示,換一個角度看時,K-MEANS和PCA等價。

十一郎1983:// @張棟_機器學習:呵呵,基于 PLSA, Hofmann 寫 Paper 同時, 順便還做了個創業公司 // @餘凱_西二旗民工: 沒有prior加個prior,屬于定式思維。在傳統文本分類或聚類模型上,一個文章一topic, 進而一個文章可以有多個topic,這是開創性的。Hofmann做了PLSA後,就一騎絕塵,玩别的去了,而Blei同學十年後(10月12日 18:15)   回複
微網誌上關于LDA和PLSA的讨論
朱洪波_機器學習:lda都成月經話題了,不過這次讨論的比較到位// @計算廣告-陳曉光: LDA隻是拉開了一個序幕,nonparametric 的hierarchical dirichlet processes和gaussian process才是漂亮的地方。// @老師木: plsi是mle,lda是bayesian。資料量很多時,bayesian 趨向于mle,對lda性能上不應有很大期待 (10月12日 16:34)   回複
微網誌上關于LDA和PLSA的讨論
朱洪波_機器學習:跟風宣傳一下:不要因為模型複雜公式很長就盲目覺得lda很酷很牛b。 相比之下,plsa又好實作,效果還不賴。 // @餘凱_西二旗民工: LDA的一個問題在于Variational Inference,這是個approximation, 導緻模型hyper參數的估計不consistent. // @高斌MS:我以前在多個文本資料集上的實驗結果也表明PLSI好過LDA (10月12日 16:11)   回複
微網誌上關于LDA和PLSA的讨論
朱洪波_機器學習:這個先驗有一個貝葉斯主義的"通病"。與其關注誰比誰好,我覺得還不如關注如何與有監督相結合更有意義// @張棟_機器學習: LDA 的 Dirichlet Prior 為 0 時,就是 PLSA // @餘凱_西二旗民工: PLSI和NMF是一回事,但Thomas Hofmann的sampling process很有開創性 LDA的貢獻被誇大了,實際效果也不比PLSI好(10月12日 16:04)   回複
微網誌上關于LDA和PLSA的讨論
朱洪波_機器學習: 我的觀點是lda很熱。但是plsa才是經典。lda的優點很多情況下是強加的。實際應用時,我偏向使用plsa// @餘凱_西二旗民工:多說一句,為什麼說PLSA的貢獻更大。沒有prior加個prior,屬于定式思維。 (10月12日 15:57)   回複
微網誌上關于LDA和PLSA的讨論
張棟_機器學習:呵呵,基于 PLSA, Hofmann 寫 Paper 同時,順便還做了個創業公司 // @餘凱_西二旗民工: 沒有prior加個prior,屬于定式思維。在傳統文本分類或聚類模型上,一個文章一topic, 進而一個文章可以有多個topic,這是開創性的。Hofmann做了PLSA後,就一騎絕塵,玩别的去了,而Blei同學十年後還在玩topic model (10月12日 15:56)   回複
微網誌上關于LDA和PLSA的讨論
代謝聚類謹:我早就發現這兩者等價了,怎麼沒想到發文章呢? (10月12日 15:45)   回複
微網誌上關于LDA和PLSA的讨論
蔣琪夏:plsa的最大貢獻我覺得是兩個:1)對human的writing過程進行了非常簡潔且reasonable的模組化;2)基于1)的mixed-membership的想法很贊 (10月12日 15:45)   回複
微網誌上關于LDA和PLSA的讨論
_小冰九月要努力完成任務:其實還是不明白把kmeans和pca了解成等價有什麼好處呢?(10月12日 15:40)   回複
微網誌上關于LDA和PLSA的讨論
餘凱_西二旗民工:多說一句,為什麼說PLSA的貢獻更大。沒有prior加個prior,屬于定式思維。而在傳統文本分類或聚類模型上,一個文章一topic,提出document->topic->word的sampling process, 進而一個文章可以有多個topic,這是開創性的。Hofmann做了PLSA後,就一騎絕塵,玩别的去了,而Blei同學十年後還在玩topic model (10月12日 15:38)   回複
微網誌上關于LDA和PLSA的讨論
張棟_機器學習:是這樣。LDA 的 Dirichlet Prior 為 0 時,就是 PLSA // @餘凱_西二旗民工: PLSI和NMF是一回事,但當時Thomas Hofmann的sampling process很有開創性。從PLSI到LDA,LDA的貢獻被誇大了,實際效果也不比PLSI好 (10月12日 15:23)   回複
微網誌上關于LDA和PLSA的讨論
餘凱_西二旗民工:PLSI和NMF是一回事,但當時Thomas Hofmann的sampling process很有開創性。從PLSI到LDA,LDA的貢獻被誇大了(個人覺得),實際效果也不比PLSI好。 (10月12日 14:27)   回複
微網誌上關于LDA和PLSA的讨論
老師木:回複 @複旦李斌:unsupervised learning和supervised learning已經大一統到minimum description length的架構下了。 (10月12日 13:33)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
複旦李斌:回複 @老師木:。。。期待Chris Ding能把所有的unsupervised learning方法都等價起來。。。前面看到有人把SVM、神經網絡、deep learning也等價起來了,眼看supervised learning和unsupervised learning都要大一統了。。。 (10月12日 13:30)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
老師木:回複 @複旦李斌: 有些是有點牽強,就當成一種有趣的了解去看也不錯。 (10月12日 13:26)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
複旦李斌:Chris Ding把kmeans和NMF、pLSA、PCA都等價起來了。。。可我覺得有些很牽強。。。 (10月12日 13:25)
========
微網誌上關于LDA和PLSA的讨論
餘凱_西二旗民工:
多說一句,為什麼說PLSA的貢獻更大。沒有prior加個prior,屬于定式思維。而在傳統文本分類或聚類模型上,一個文章一topic,提出document->topic->word的sampling process, 進而一個文章可以有多個topic,這是開創性的。Hofmann做了PLSA後,就一騎絕塵,玩别的去了,而Blei同學十年後還在玩topic model
尚goodman:LDA為什麼比plsa好,在于這個asymmetric prior的用法。hanna wallach的 rethinking lda why priors matter 說得很清楚了。對于短文本,這樣的差距更大 (今天 03:54) 舉報|  回複
微網誌上關于LDA和PLSA的讨論
heavenfireray:回複 @自個兒挖坑-rj:一個很大的差別是,Guassian在高維文本空間裡會死啊~~~不經謹慎實驗,不要輕易嘗試直接在文本空間裡用Guassian。 (10月12日 17:01)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
heavenfireray:回複 @餘凱_西二旗民工:我倒覺得了解成一個向量代表一個topic還挺順的。基于這種了解,近期各種基于矩陣、高階(非矩陣直接相乘,類似于線性到非線性)的factorization方法就算一脈相承了~~~ (10月12日 16:59)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
餘凱_西二旗民工:回複 @heavenfireray: 關于LSI思想了解沒錯,但是,LSI的聯系到topic比較牽強。 (10月12日 16:56)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
heavenfireray:其實,LSI就有這思想了。從矩陣分解角度來看,PLSA可以了解成給矩陣分解加上機率化。LDA則屬于典型的bayesian方法了。。。加prior,然後關注點集中到如何Inference。 插個嘴,byesian套路似乎比較适合發paper啊~~~變結構,加先驗,各種Inference方法,and so on... // @餘凱_西二旗民工: PLSA的貢獻更大 (10月12日 16:53)   回複
微網誌上關于LDA和PLSA的讨論
自個兒挖坑-rj:pLSA和GMM的本質卻别在哪兒?如果把每個gaussian看成一個topic,GMM是不是也就成了pLSA (10月12日 16:25)   回複
微網誌上關于LDA和PLSA的讨論
朱洪波_機器學習: 我的觀點是lda很熱。但是plsa才是經典。lda的優點很多情況下是強加的。實際應用時,我偏向使用plsa// @餘凱_西二旗民工:多說一句,為什麼說PLSA的貢獻更大。沒有prior加個prior,屬于定式思維。 (10月12日 15:57)   回複
微網誌上關于LDA和PLSA的讨論
張棟_機器學習:呵呵,基于 PLSA, Hofmann 寫 Paper 同時,順便還做了個創業公司 // @餘凱_西二旗民工: 沒有prior加個prior,屬于定式思維。在傳統文本分類或聚類模型上,一個文章一topic, 進而一個文章可以有多個topic,這是開創性的。Hofmann做了PLSA後,就一騎絕塵,玩别的去了,而Blei同學十年後還在玩topic model (10月12日 15:56)   回複
微網誌上關于LDA和PLSA的讨論
餘凱_西二旗民工:回複 @蔣琪夏: 100%同意 (10月12日 15:55)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
餘凱_西二旗民工:回複 @李良豪Luckycat: 讀得很細嘛 
微網誌上關于LDA和PLSA的讨論
(10月12日 15:55)   檢視對話 |  回複
微網誌上關于LDA和PLSA的讨論
蔣琪夏:plsa的最大貢獻我覺得是兩個:1)對human的writing過程進行了非常簡潔且reasonable的模組化;2)基于1)的mixed-membership的想法很贊 (10月12日 15:45)   回複
微網誌上關于LDA和PLSA的讨論
李良豪Luckycat: 對了,加一句,hofmann在他2004年的論文Latent semantic models for collaborative filtering中也指出,他自然知道弄成LDA這種fully bayesian model更漂亮,可是為了避免高時間複雜度,他使用了tempered EM (10月12日 15:44)

繼續閱讀