Graph Convolutional Networks for Text Classification——論文筆記

2021-03-01 17:06:00

這篇文章是圖卷積神經網絡在文本分類上的較早應用,文章中,把整個語料庫中的文檔、所有重複的詞算作圖的節點。邊的值分不同情況來取值:

當i, j兩個節點都是詞的時候,邊的權重Aij = PMI(i, j)
當i是文檔,j是詞時,邊的權重是Aij = TF-IDFij
當i = j時,邊的權重Aij = 1
其他情況下,Aij = 0

其中PMI(point-wise mutual information),好像是翻譯為逐點互資訊,是一種常用的單詞關聯度量,用于計算兩個單詞節點之間的權重。文章中,作者也提出說:發現使用PMI所得到的實驗結果比使用單詞共現計數(word co-occurrence count)更好,以下是PMI的計算方法:

\(PMI(i, j) = log\frac{p(i, j)}{p(i)p(j)}\)
\(p(i, j) = \frac{\#W(i, j)}{\#W}\)
\(p(i) = \frac{\#W(i)}{\#W}\)

上述中：

#W(i)是語料庫中包含單詞i的滑動視窗的數量
#W(i, j)是同時包含單詞i和j的滑動視窗的數量
#W是語料庫中滑動視窗的總數

而對于PMI的意義，正的PMI表示語料庫中單詞的語義相關性很高，而負的PMI值表示語料庫中的詞的語義相關性很小或沒有相關。是以，論文中旨在具有正PMI值的單詞對之間添加邊。

下圖是文章中對GCN的示意圖

Graph Convolutional Networks for Text Classification——論文筆記