微網誌上關于LDA和PLSA的讨論

自己對PLSA和LDA從來沒去仔細的推導和實作過，資質太差，也沒專門拿出時間來去搞。最近了解了一下，已經沒多麼的難了。打算最近寫個自己了解、推導、代碼、例子。

偶然看見微網誌上餘凱、張棟等人關于這個問題的探讨，摘錄下來，為自己以後對這兩個模型做推導或者實作的時候，有些指導的意義：

（如果您不願意我将您的觀點記錄再次，那麼給我說，我去掉，我隻是覺得，在我自己還沒有了解和觀點的情況下，這些對我有指導意義）

===

@老師木 PCA，及其差不多等價的LSI, pLSI, LDA(topic model) 相對于k-means的進步之處在于，使用基重構樣例時不再限定僅用一個基來表示，正是這一點使得LSI處理文本時可以反映同義詞、多義詞現象。Hongyuan Zha, Chris Ding等人的工作也揭示，換一個角度看時，K-MEANS和PCA等價。

十一郎1983：// @張棟_機器學習:呵呵，基于 PLSA, Hofmann 寫 Paper 同時，順便還做了個創業公司 // @餘凱_西二旗民工: 沒有prior加個prior，屬于定式思維。在傳統文本分類或聚類模型上，一個文章一topic, 進而一個文章可以有多個topic，這是開創性的。Hofmann做了PLSA後，就一騎絕塵，玩别的去了，而Blei同學十年後(10月12日 18:15) 回複

微網誌上關于LDA和PLSA的讨論

朱洪波_機器學習：lda都成月經話題了,不過這次讨論的比較到位// @計算廣告-陳曉光: LDA隻是拉開了一個序幕，nonparametric 的hierarchical dirichlet processes和gaussian process才是漂亮的地方。// @老師木: plsi是mle，lda是bayesian。資料量很多時，bayesian 趨向于mle，對lda性能上不應有很大期待 (10月12日 16:34) 回複

微網誌上關于LDA和PLSA的讨論

朱洪波_機器學習：跟風宣傳一下:不要因為模型複雜公式很長就盲目覺得lda很酷很牛b。相比之下，plsa又好實作，效果還不賴。 // @餘凱_西二旗民工: LDA的一個問題在于Variational Inference，這是個approximation, 導緻模型hyper參數的估計不consistent. // @高斌MS:我以前在多個文本資料集上的實驗結果也表明PLSI好過LDA (10月12日 16:11) 回複

微網誌上關于LDA和PLSA的讨論

朱洪波_機器學習：這個先驗有一個貝葉斯主義的"通病"。與其關注誰比誰好，我覺得還不如關注如何與有監督相結合更有意義// @張棟_機器學習: LDA 的 Dirichlet Prior 為 0 時，就是 PLSA // @餘凱_西二旗民工: PLSI和NMF是一回事，但Thomas Hofmann的sampling process很有開創性 LDA的貢獻被誇大了，實際效果也不比PLSI好(10月12日 16:04) 回複

微網誌上關于LDA和PLSA的讨論

朱洪波_機器學習：我的觀點是lda很熱。但是plsa才是經典。lda的優點很多情況下是強加的。實際應用時，我偏向使用plsa// @餘凱_西二旗民工:多說一句，為什麼說PLSA的貢獻更大。沒有prior加個prior，屬于定式思維。 (10月12日 15:57) 回複

微網誌上關于LDA和PLSA的讨論

張棟_機器學習：呵呵，基于 PLSA, Hofmann 寫 Paper 同時，順便還做了個創業公司 // @餘凱_西二旗民工: 沒有prior加個prior，屬于定式思維。在傳統文本分類或聚類模型上，一個文章一topic, 進而一個文章可以有多個topic，這是開創性的。Hofmann做了PLSA後，就一騎絕塵，玩别的去了，而Blei同學十年後還在玩topic model (10月12日 15:56) 回複

微網誌上關于LDA和PLSA的讨論

代謝聚類謹：我早就發現這兩者等價了，怎麼沒想到發文章呢？ (10月12日 15:45) 回複

微網誌上關于LDA和PLSA的讨論

蔣琪夏：plsa的最大貢獻我覺得是兩個：1）對human的writing過程進行了非常簡潔且reasonable的模組化；2）基于1）的mixed-membership的想法很贊 (10月12日 15:45) 回複

微網誌上關于LDA和PLSA的讨論

_小冰九月要努力完成任務：其實還是不明白把kmeans和pca了解成等價有什麼好處呢？(10月12日 15:40) 回複

微網誌上關于LDA和PLSA的讨論

餘凱_西二旗民工：多說一句，為什麼說PLSA的貢獻更大。沒有prior加個prior，屬于定式思維。而在傳統文本分類或聚類模型上，一個文章一topic，提出document->topic->word的sampling process, 進而一個文章可以有多個topic，這是開創性的。Hofmann做了PLSA後，就一騎絕塵，玩别的去了，而Blei同學十年後還在玩topic model (10月12日 15:38) 回複

微網誌上關于LDA和PLSA的讨論

張棟_機器學習：是這樣。LDA 的 Dirichlet Prior 為 0 時，就是 PLSA // @餘凱_西二旗民工: PLSI和NMF是一回事，但當時Thomas Hofmann的sampling process很有開創性。從PLSI到LDA，LDA的貢獻被誇大了，實際效果也不比PLSI好 (10月12日 15:23) 回複

微網誌上關于LDA和PLSA的讨論

餘凱_西二旗民工：PLSI和NMF是一回事，但當時Thomas Hofmann的sampling process很有開創性。從PLSI到LDA，LDA的貢獻被誇大了（個人覺得），實際效果也不比PLSI好。 (10月12日 14:27) 回複

微網誌上關于LDA和PLSA的讨論

老師木：回複 @複旦李斌:unsupervised learning和supervised learning已經大一統到minimum description length的架構下了。 (10月12日 13:33) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

複旦李斌：回複 @老師木:。。。期待Chris Ding能把所有的unsupervised learning方法都等價起來。。。前面看到有人把SVM、神經網絡、deep learning也等價起來了，眼看supervised learning和unsupervised learning都要大一統了。。。 (10月12日 13:30) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

老師木：回複 @複旦李斌: 有些是有點牽強，就當成一種有趣的了解去看也不錯。 (10月12日 13:26) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

複旦李斌：Chris Ding把kmeans和NMF、pLSA、PCA都等價起來了。。。可我覺得有些很牽強。。。 (10月12日 13:25)

========

微網誌上關于LDA和PLSA的讨論

餘凱_西二旗民工：

多說一句，為什麼說PLSA的貢獻更大。沒有prior加個prior，屬于定式思維。而在傳統文本分類或聚類模型上，一個文章一topic，提出document->topic->word的sampling process, 進而一個文章可以有多個topic，這是開創性的。Hofmann做了PLSA後，就一騎絕塵，玩别的去了，而Blei同學十年後還在玩topic model

尚goodman：LDA為什麼比plsa好，在于這個asymmetric prior的用法。hanna wallach的 rethinking lda why priors matter 說得很清楚了。對于短文本，這樣的差距更大 (今天 03:54) 舉報| 回複

微網誌上關于LDA和PLSA的讨論

heavenfireray：回複 @自個兒挖坑-rj:一個很大的差別是，Guassian在高維文本空間裡會死啊~~~不經謹慎實驗，不要輕易嘗試直接在文本空間裡用Guassian。 (10月12日 17:01) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

heavenfireray：回複 @餘凱_西二旗民工:我倒覺得了解成一個向量代表一個topic還挺順的。基于這種了解，近期各種基于矩陣、高階（非矩陣直接相乘，類似于線性到非線性）的factorization方法就算一脈相承了~~~ (10月12日 16:59) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

餘凱_西二旗民工：回複 @heavenfireray: 關于LSI思想了解沒錯，但是，LSI的聯系到topic比較牽強。 (10月12日 16:56) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

heavenfireray：其實，LSI就有這思想了。從矩陣分解角度來看，PLSA可以了解成給矩陣分解加上機率化。LDA則屬于典型的bayesian方法了。。。加prior，然後關注點集中到如何Inference。插個嘴，byesian套路似乎比較适合發paper啊~~~變結構，加先驗，各種Inference方法，and so on... // @餘凱_西二旗民工: PLSA的貢獻更大 (10月12日 16:53) 回複

微網誌上關于LDA和PLSA的讨論

自個兒挖坑-rj：pLSA和GMM的本質卻别在哪兒？如果把每個gaussian看成一個topic，GMM是不是也就成了pLSA (10月12日 16:25) 回複

微網誌上關于LDA和PLSA的讨論

餘凱_西二旗民工：回複 @蔣琪夏: 100%同意 (10月12日 15:55) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

餘凱_西二旗民工：回複 @李良豪Luckycat: 讀得很細嘛

微網誌上關于LDA和PLSA的讨論

(10月12日 15:55) 檢視對話 | 回複

微網誌上關于LDA和PLSA的讨論

李良豪Luckycat：對了，加一句，hofmann在他2004年的論文Latent semantic models for collaborative filtering中也指出，他自然知道弄成LDA這種fully bayesian model更漂亮，可是為了避免高時間複雜度，他使用了tempered EM (10月12日 15:44)

微網誌上關于LDA和PLSA的讨論

繼續閱讀

DOS指令(2) 磁盤操作類指令

寫在工作13周年

寫在工作四周年！

開博一周年

程式設計高手：VC 6.0下利用消息實作内部程序通訊

從申請到獲得美國第一筆科研經費的曆程

門戶通專訪草根站長九天狼：做站貴在堅持

叽歪網創始人李卓桓：叽歪的微資訊模式叽歪網創始人李卓桓：叽歪的微資訊模式叽歪的發展方向：商業服務還是媒體李卓桓：叽歪的網際網路過冬政策李卓桓：中國微網誌營運模式需共同探索

新鮮傳媒CEO紀中展：經濟危機對年輕人是機會新鮮傳媒CEO紀中展：經濟危機對年輕人是機會紀中展：加入創業團隊初期不要考慮名利紀中展：創業者骨子裡要有霸氣紀中展：創業是颠覆過去的過程

《eWEEK》：09年5大科技發展趨勢雲計算居首

阿裡巴巴分布式服務架構 Dubbo 團隊成員梁飛專訪

人工智能如何有效地運用于自然語言處理

浮點數計算精度控制

坐标系統和投影變換在桌面産品中的應用

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

C++ 第十五周報告1--《冒泡法排序》