論文:BiANE: Bipartite Attributed Network Embedding (SIGIR-2020)
作者: Wentao Huang, Yuchen Li, Yuan Fang, Ju Fan, Hongxia Yang
新零售智能引擎事業群出品
前言
網絡資料是一種常見的資料表示形式,可以用來模組化現實世界中的多種應用場景。網絡表示學習(又稱作圖嵌入學習),作為一種模組化網絡資料的模型,近年來受到學界和工業界的廣泛重視,得到了極大發展。網絡表示學習旨在把複雜的網絡圖資料結構嵌入到低維的連續向量空間中,并且使每一個節點的特征資訊在低維空間中得到回報。近年來,大量的網絡表示學習方法和模型被不斷提出并且在鍊路預測、節點分類、網絡可視化等相關的實際任務上有很好的表現名額。
然而,大部分的網絡表示學習模型都是針對同構網絡、異構網絡或屬性網絡提出的,沒有專門針對屬性二部圖提出的網絡表示學習模型。屬性二部圖是一種特殊的網絡結構,可以用來模組化多種現實運用場景。以上圖所示的電商消費為例,圖上的節點分為兩種類型(使用者、商品),每個節點附帶有一些描述的屬性資訊。圖上僅存在一種類型的邊,分别連接配接着兩種不同類型的端點,表示節點之間的互動關系(購買)。
該文針對目前研究相對欠缺的屬性二部圖,提出了一種新的表示學習模型BiANE(Bipartite Attributed Network Embedding)。BiANE可以對屬性二部圖上的組間資訊關聯度群組内資訊關聯度進行模組化,并且有效捕獲屬性資訊和結構資訊之間的關聯性。此外,BiANE引入了一個動态正例采樣過程,在保證模型可擴充性的同時,實時更新節點在表示學習空間中的采樣分布,增強BiANE的學習效果。
相關研究及其不足
網絡表示學習
網絡表示學習的相關技術在近些年來受到了各行各業的大量關注,許多模型被相繼提出。DeepWalk、node2vec、metapath2vec等方法借鑒了Skip-gram的思想學習節點表示向量,GCN等則借用圖卷積操作學習節點的向量表示。 然而這些方法,或是無法模組化屬性二部圖的組内資訊關聯度,或是無法捕獲屬性資訊和結構資訊之間的關聯性,故不能在屬性二部圖上獲得較好的表示學習效果。
二部圖的模組化研究
現有的工作對二部圖的研究多側重于推薦排序或點選率預估,如BPR、RankALS、DeepFM等等。這些方法的輸出往往是一個标量分值,不具備表示向量那樣的豐富表達能力。近年來提出的BiNE是第一個針對二部圖表示學習的模型,然而它無法對屬性、結構資訊關聯性模組化,因而不适用與屬性二部圖的表示學習。
負例采樣政策
網絡表示學習需要采樣一定的負例進行訓練。負例采樣政策可分為靜态政策或動态政策。靜态政策采用預定義的采樣分布,無法反映出訓練過程中節點在向量空間中的資訊變化過程。動态政策雖能實時更新采樣分布,但其計算複雜度過大,制約模型的可擴充性。
BiANE模型介紹
針對上述相關研究的缺陷,該文提出了一個新的表示學習模型BiANE。BiANE模型的訓練過程大緻可分為組内資訊關聯度模組化群組間資訊關聯度模組化兩個部分。BiANE首先對組内資訊關聯度進行模組化。BiANE根據節點所屬的不同類型對節點進行分組,若組内兩個節點連着另一個組内的同一個節點,則稱它們彼此為intra-partition neighbors,根據這種“鄰居”關系,可在組内建構intra-partition network。
在每個組内,BiANE分别提取節點的屬性資訊和結構資訊。在屬性資訊提取上,分别對連續型屬性和離散型屬性采取歸一化和one-hot處理,并把所有處理後的值進行拼接。在結構資訊提取上,則通過下式得到節點高階結構特征。
對于提取到的屬性特征和結構特征,分别引入兩個自編碼器,通過優化自編碼器損失函數學習得到關于屬性、結構資訊的表示向量。
同時,BiANE對每個組内的intra-partition neighbors之間的一階拓補結構進行模組化,若兩個節點互為“鄰居”,則分别優化它們之間屬性、結構向量的聯合機率,使有關向量在表示空間中的位置逐漸接近。
接着,BiANE對屬性資訊和結構資訊之間的關聯性進行模組化。對圖上任意節點,它的屬性資訊和結構資訊既彼此互補,又潛在一緻,這種關系被稱作屬性資訊和結構資訊之間的關聯性。BiANE引入兩個額外的轉換核,将編碼器學到的屬性向量和結構向量投影到一個潛在的向量空間中,并在該空間内,優化相同節點屬性向量和結構向量的聯合機率,以捕獲屬性、結構資訊之間的關聯性。
在上述訓練過程中,有關損失函數皆使用預定義的靜态負例采樣進行訓練,然而該分布不能在訓練過程中動态更新,無法反映節點在向量空間中的資訊變化過程。而動态更新采樣分布的時間開銷過大,容易制約模型的可擴充性。是以,BiANE引入了一種動态正例采樣政策增強模型的訓練效果。BiANE在轉化核輸出的向量空間中建構關于每一個節點向量的最近鄰搜尋的索引結構,并傳回關于每個向量的k個最近鄰。所傳回的k的最近鄰作為節點在向量空間中的訓練“正例”。這些“正例”向量在表示空間中的位置被互相推近。同時由于結合了傳統的負例的靜态負例采樣政策,“無關”的節點向量在空間中的位置被互相推遠。兩種采樣政策相結合,得到一個動态更新的采樣分布
為了保證模型的可擴充性,BiANE在最近鄰檢索過程中采用了HNSW資料結構。HNSW在低維空間上能保證較低的時間複雜度(O(n logn)),故限制引入的轉化核将向量轉化至低維空間上(如:16、32維),以保證時間複雜度。引入動态正例采樣後的損失函數如下,其中p ̃為基于HNSW的動态正例采樣分布。
之後,BiANE對屬性二部圖組間資訊關聯度進行模組化。在每個組内,将屬性自編碼器和結構自編碼器的編碼器輸出向量進行拼接得到節點的最終向量表示。然後根據屬性二部圖上存在的邊,優化不同組内的節點之間的組間資訊關聯度:
最後,BiANE将所有訓練損失函數結合,通過聯合訓練的形式優化模型,得到最終的節點表示向量。
實驗
該文在三個資料集上進行有關實驗,資料集的有關統計資訊如下表所示:
首先,進行了鍊路預測的實驗,結果如下表示:
觀察發現,BiANE模型在三個資料集上取得了較好的表現。結合一些對比方法可以發現,對組内資訊關聯度進行模組化可以有效增強模型的學習效果。
其次是關于節點分類的實驗,有關實驗結果如下所示:
觀察發現,對屬性資訊的提取能夠顯著增強表示學習模型的在節點分類任務上的表現。同時,由于BiANE模型能夠有效對屬性、結構資訊關聯性進行模組化,是以再次取得了最優的分類名額。
接下來,是關于BiANE的模型消融分析實驗。在這裡實驗設定了若幹對照模型,通過鍊路預測和節點分類兩個任務,分别對BiANE模型的屬性資訊模組化、結構資訊模組化、屬性資訊結構資訊關聯性以及動态正例采樣政策的進行消融分析。實驗結果如下所示:
觀察發現,對屬性資訊和結構資訊的關聯性模組化能夠有效融合節點的屬性特征和結構特征,加強學習向量的表達能力。同時,由于動态正例采樣政策引入可以實時更新、改善訓練過程中模型的采樣分布,使模型的學習效果得到進一步增強。
最後,是關于模型效率的分析,在此選用基于Softmax函數的重要性采樣分布進行效率對比,分别統計基于HNSW采樣和重要性采樣完成一輪采樣所需要的時間,結果如下圖所示:
觀察發現,基于HNSW的動态采樣政策在效率上顯著優于重要性采樣政策,且在低維空間(16維)中的時間優勢更加明顯,也證明了引入使向量降維的轉化核可以有效降低訓練的時間複雜度,保證模型的可擴充性。
結語
該文提出了一種針對屬性二部圖的網絡表示學習模型BiANE,能夠分别對屬性二部圖的組内資訊關聯度群組間資訊關聯度進行模組化。同時,BiANE引入關于屬性、結構資訊之間關聯性訓練環節,加強對屬性資訊和結構資訊模組化的效果。此外,BiANE在傳統的靜态負例采樣政策基礎上,設定了一個動态正例采樣政策,實時更新訓練過程中的采樣分布。相關實驗表明,BiANE模型能夠有效适用于屬性二部圖的表示學習任務,并具備一定的可擴充性。
更多資訊檢索技術内容請檢視:
獨家下載下傳!《SIGIR 頂會論文解讀》電子書重磅釋出