這篇文章是圖卷積神經網絡在文本分類上的較早應用,文章中,把整個語料庫中的文檔、所有重複的詞算作圖的節點。邊的值分不同情況來取值:
- 當i, j兩個節點都是詞的時候,邊的權重Aij = PMI(i, j)
- 當i是文檔,j是詞時,邊的權重是Aij = TF-IDFij
- 當i = j時,邊的權重Aij = 1
- 其他情況下,Aij = 0
其中PMI(point-wise mutual information),好像是翻譯為逐點互資訊,是一種常用的單詞關聯度量,用于計算兩個單詞節點之間的權重。文章中,作者也提出說:發現使用PMI所得到的實驗結果比使用單詞共現計數(word co-occurrence count)更好,以下是PMI的計算方法:
- \(PMI(i, j) = log\frac{p(i, j)}{p(i)p(j)}\)
- \(p(i, j) = \frac{\#W(i, j)}{\#W}\)
- \(p(i) = \frac{\#W(i)}{\#W}\)
上述中:
- #W(i)是語料庫中包含單詞i的滑動視窗的數量
- #W(i, j)是同時包含單詞i和j的滑動視窗的數量
- #W是語料庫中滑動視窗的總數
而對于PMI的意義,正的PMI表示語料庫中單詞的語義相關性很高,而負的PMI值表示語料庫中的詞的語義相關性很小或沒有相關。是以,論文中旨在具有正PMI值的單詞對之間添加邊。
下圖是文章中對GCN的示意圖