天天看點

拓端資料|R語言代寫社群主題檢測算法應用案例

使用R檢測相關主題的社群

拓端資料|R語言代寫社群主題檢測算法應用案例
拓端資料|R語言代寫社群主題檢測算法應用案例

建立主題網絡

對于Project Mosaic,我正在通過分析抽象文本和共同作者社交網絡來研究UNCC在社會科學和計算機和資訊學方面的出版物。

我遇到的一個問題是:如何衡量主題之間的關系(相關性)?特别是,我想建立一個連接配接類似主題的網絡可視化,并幫助使用者更輕松地浏覽大量主題(在本例中為100個主題)。

資料準備

我們的第一步是加載作為LDA輸出的主題矩陣。LDA有兩個輸出:字主題矩陣和文檔主題矩陣。

作為加載平面檔案的替代方法,您可以使用topicmodels包lda函數的輸出來建立任何單詞主題和文檔主題矩陣。

拓端資料|R語言代寫社群主題檢測算法應用案例

與摘要是文檔的标準LDA不同,我運作了一個“以作者為中心”的LDA,其中所有作者的摘要被合并并被視為每個作者的一個文檔。我跑這是因為我的最終目标是使用主題模組化作為資訊檢索過程來确定研究人員的專業知識。

建立靜态網絡

在下一步中,我使用每個主題的單詞機率之間的相關性建立一個網絡。

首先,我決定隻保留具有顯着相關性(20%+相關性)的關系(邊緣)。我使用20%,因為它對于100個觀察維基百科的樣本具有0.05的統計顯着性水準。

拓端資料|R語言代寫社群主題檢測算法應用案例
拓端資料|R語言代寫社群主題檢測算法應用案例

每個數字代表一個主題,每個主題都有編号以識别它。

使用社群檢測,特别是igraph中的标簽傳播算法來确定網絡中的群集。

拓端資料|R語言代寫社群主題檢測算法應用案例

社群檢測發現了13個社群,以及每個孤立主題的多個額外社群(即沒有任何聯系的主題)。

與我最初的觀察結果類似,該算法找到了我們在第一個圖中識别的三個主要聚類,但也添加了其他較小的聚類,這些聚類似乎不适合三個主要聚類中的任何一個。

拓端資料|R語言代寫社群主題檢測算法應用案例

動态可視化

在本節中,我們将使用visNetwork允許R中的互動式網絡圖的包。

首先,讓我們調用庫并運作visIgraph一個互動式網絡,但是使用igraph圖形設定在igraph結構(圖形)上運作。

拓端資料|R語言代寫社群主題檢測算法應用案例

這是一個良好的開端,但我們需要有關網絡的更多詳細資訊。

讓我們通過建立visNetwork資料結構走另一條路。為此,我們将igraph結構轉換為visNetwork資料結構,然後将清單分成兩個資料幀:節點和邊緣。

拓端資料|R語言代寫社群主題檢測算法應用案例

删除沒有連接配接的節點(主題)(度= 0)。

拓端資料|R語言代寫社群主題檢測算法應用案例

讓我們添加顔色和其他網絡參數來改善我們的網絡。

拓端資料|R語言代寫社群主題檢測算法應用案例

最後,讓我們用互動式情節建立我們的網絡。您可以使用滑鼠滾輪進行縮放。

拓端資料|R語言代寫社群主題檢測算法應用案例

首先,有兩個下拉菜單。第一個下拉清單允許您按名稱查找任何主題(按單詞機率排名前五個單詞)。

第二個下拉清單突出顯示了我們算法中檢測到的社群。

最大的三個似乎是:

計算(灰色,簇4)

社交(綠藍,簇1)

健康(黃色,簇2)

檢測到的較小社群有什麼獨特之處?你能解釋一下嗎?

拓端資料|R語言代寫社群主題檢測算法應用案例
拓端資料|R語言代寫社群主題檢測算法應用案例
拓端資料|R語言代寫社群主題檢測算法應用案例
拓端資料|R語言代寫社群主題檢測算法應用案例

繼續閱讀