天天看點

了解電子商務系統中的回音室效應 | SIGIR論文解讀

新零售智能引擎事業群出品

代碼:

https://github.com/szhaofelicia/EchoChamberInEcommerce

一. 前言

個性化推薦系統在為使用者帶來更精準商品的同時,也對消費者的興趣偏好和行為造成影響,例如回音室效應。回音室是指使用者不斷接受相似的資訊和内容, 進而使得他們的興趣或者态度被不斷強化。這種現實通常出現在社交媒體和網絡平台,也同樣可能出現在電子商務等推薦系統中。我們的研究集中在電子商務的推薦系統對使用者興趣的影響,利用淘寶的大規模使用者資料檢驗是否存在回音室效應。

根據回音室效應的定義,我們分兩步檢驗其影響。首先,我們将測量使用者的興趣是否被強化。如果使用者興趣确實被加強, 接下來我們觀察強化效應是否是接收的内容造成的,即系統推薦的商品被限制在逐漸縮小的範圍内。也就是說,我們同時需要檢驗是推薦系統中是否存在過濾氣泡的現象。我們在實驗中采用分組對比的方法,利用聚類算法和有效性名額從群體水準分析使用者受到的影響。實驗結果證明電子商務系統,即淘寶平台,使用者的點選行為中的确出現了回音室效應。然而, 這個現象在使用者的購買行為中被削弱了。

二. 回音室和過濾氣泡效應的背景

回音室(echo chamber)和過濾氣泡(filter bubble)效應都是個性化推薦系統造成的負面影響,這兩個概念并不獨立。回音室效應[2]描述了由于不斷接觸相似的資訊,使用者喜好被持續強化的現象,而過濾氣泡效應則解釋了推薦系統會把使用者隔離在一緻,單一的資訊環境中[5]。由此可見,過濾氣泡效應是造成回音室效應的一種因素。

在社交媒體中,回音室和過濾氣泡效應都會導緻社會群體的分裂和觀點的極化[1]。很多研究集中在臉書,推特等平台出現的回音室效應,這些研究認為個性化的内容推薦造成了線上社群的極化和虛假内容的傳播 [3]。另一部分研究集中在推薦系統中的回音室效應,他們利用模拟的資料預測推薦系統如何影響使用者興趣[2]。回音室加劇了平台内容的極化,而過濾氣泡效應則進一步降低了的多樣性。

然而,目前的研究仍存在一定局限性。其中一個明顯的問題是很多結論不是基于實時資料而是仿真或是自定義的模型下的結果。另外一個問題是很多研究混淆了回音室和過濾氣泡的定義。很多研究将它們混為一談,或是隻研究其中之一回避了兩者的相關性。我們的研究解決了上述問題:一方面,在檢驗回音室效應的同時也檢測可能造成其的因素,即過濾氣泡效應;另一方面,來自淘寶的實時資料使我們不必使用仿真去驗證推薦系統對使用者的影響。

三. 研究問題和解決方案

我們的目的在于研究電子商務推薦系統對使用者影響。不同于社交媒體和其他類似的平台,使用者的興趣偏好在電子商務系統更加多樣和複雜。例如在社交網絡中,我們可以将使用者的觀點歸類為正反兩個的方向,即支援和反對,觀察任一方向的強化即可驗證系統對使用者偏好的影響。但是在電子商務中,使用者的喜好圍繞各類商品,多種類型的産品導緻我們無法用“正反”來定義使用者的興趣。電子商務中的使用者行為也為我們的研究增加了難度,我們很難觀察到評論,添加删除好友等社交網絡中具體明确的行為。使用者和平台的互動以間接的方式構成推薦系統和使用者的互相影響,因而我們的測量隻能利用購買,浏覽,點選等使用者的曆史記錄。基于以上兩個特征,我們選擇測量群體水準的變化,利用聚類的方式分析使用者興趣特征,并觀察群體水準推薦内容的多樣性變化趨勢。我們的方法可以總結為以下兩個問題:

(1) 我們測量一段時間内使用者喜好的變化,判斷使用者興趣是否被強化。

(2) 如果使用者興趣的确得到加強,我們接下來檢測這是否是因為使用者接觸的内容被限制,多樣性降低。

我們采用已有研究中的方法[4],利用分組的方式,根據使用者采納推薦商品的頻率将使用者分為采納推薦組(Following Group)和不采納推薦組(Ignoring Group)。對比兩組的結果,我們可以觀察到推薦系統對使用者的影響。以上方法有效地檢測電子商務場景的回音室效應,論文的貢獻具體為以下幾點:提出群體水準 的聚類分析方式;根據使用者行為分組,進而測量回音室的影響;我們的實驗使用實時使用者資料,并分别研究了使用者點選,購買行為的變化。

四. 資料集

我們采用淘寶使用者的資料集,涵蓋86192使用者從2019年1月1日到5月31日共五個月的三種記錄:浏覽,點選和購買(表1)。我們隻使用後三個月的資料以確定使用者已經熟悉淘寶平台的各項功能。随後根據用的clicked PV (clicked page review), 抽取出Following Group和Ignoring Group兩組使用者。我們将至少包含一個點選商品的推薦清單定義為clicked PV,并計算全部PV中clicked PV的比例—PVR (page review ratio)。如圖1所示,PVR在20%以下的使用者歸入Ignoring Group,PVR在80%以上的使用者以下的使用者歸入Following Group。分組之後,我們共得到六組資料(表2)。

為了提取使用者興趣嵌入向量(user embedding)和産品嵌入向量(item embedding),我們将使用者記錄劃分為小區間(block)。每個區間包含相同數量的記錄,例如使用者的點選,浏覽和購買。通過比較三個月中第一個(first block)和最後一個區間(last block)的使用者興趣變化,我們就可以檢測推薦系統在這段時間造成的影響。采用目前最先進的方法之一[6],我們提取出産品嵌入向量(item embedding)用于測量内容多樣性,并計算每個區間的平均産品嵌入作為使用者興趣嵌入(user embedding)用于檢測使用者興趣強化。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

表1 實驗資料

了解電子商務系統中的回音室效應 | SIGIR論文解讀

圖1. 使用者分組

了解電子商務系統中的回音室效應 | SIGIR論文解讀

表2 使用者分組資料

五. 測量方法和結果

(一) 測量使用者興趣強化程度

我們先用霍普金斯統計量(Hopkins statistic)确認每組資料都可以産生有效的距離結果,計算結果用H表示。這項名額代表了資料的聚集程度,當名額超過0.5時,資料集有聚類傾向,計算公式如下:

了解電子商務系統中的回音室效應 | SIGIR論文解讀

S¬¬i和t¬¬i分别表示采樣資料在随機資料和待測資料集的最小近鄰距離。如表3所示,所有使用者組資料均有聚類傾向。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

表3 霍普金斯統計量

由于我們采用k-平均演算法(k-means clustering), 我們需要為每組資料選擇最優的聚類數量,即K*。考慮到高維嵌入向量的複雜性,我們使用貝葉斯資訊量準則(Bayesian information criterion,BIC)選取合适的K。BIC越高,說明K越适合資料集。貝葉斯資訊量準則通常用于模型的最大似然估計,我們采用适用于切割式分群聚類的計算公式:

了解電子商務系統中的回音室效應 | SIGIR論文解讀

K表示聚類數量,ni表示聚類的大小,Σ表示方差,N為資料集大小。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

圖2 BIC

.

各組資料的BIC曲線如圖2,點選嵌入向量Following Group和Ignoring group的K分布是24和20,購買嵌入向量Following Group和Ignoring Group的K分布是11和9。由于峰值附近的的曲線較為平滑,我們把k的範圍擴充到[K-5, K+5],各組的範圍分别是[19,29],[15,25],[6,16]和[4,14]。

随後我們分别測量各項k值下的聚類有效性名額(clustering validity index),CH(Calinski-Harabasz index)和ARI (Adjusted rand index)。

測量CH名額時,我們隻對第一個區間的嵌入向量進行聚類,直接将結果應用在最後一個區間對應的嵌入向量,之後測量兩個區間的CH名額 (公式如下)。CH名額越高,聚類結果類間越分散,類内越聚集,聚類結果越好。在我們的實驗中,CH名額下降較少的使用者組則興趣強化的程度較高。SSBK和SSWk分布表示類間和類内的平方距離,N表示資料集大小。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

結果如圖3和表4所示,無論是點選嵌入向量還是購買嵌入向量,Following Group的CH都下降較小,說明該組使用者興趣被強化。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

圖3 CH

了解電子商務系統中的回音室效應 | SIGIR論文解讀

表4 各組使用者CH名額下降值

ARI的測量結果也印證了這一結論。不同于CH,ARI可以看做兩個不同聚類結果的相似度,通常被用來比較待測結果和最優結果的差距。ARI數值越高,說明兩個聚類結果越接近。我們利用ARI測量同組使用者前後兩個區間資料各自的聚類結果,估計嵌入向量的變化。ARI計算公式如下:

了解電子商務系統中的回音室效應 | SIGIR論文解讀

pi和qj分别表示不同聚類的資料,n¬ij表示兩個聚類i,j共同包含的資料。

從圖4和表5可得,Following Group的使用者興趣受到的影響更大。無論是點選還是購買嵌入向量,Following Group的ARI都較高,說明聚類結果變化小。但是,購買嵌入向量的兩組ARI差距不大,并不顯著。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

表5 各組使用者的ARI名額

了解電子商務系統中的回音室效應 | SIGIR論文解讀

圖4 ARI

(二) 推薦内容多樣性變化趨勢

基于聚類分析的結果,我們可以确定Following Group的使用者興趣的确被強化了。接下來我們檢測這一差異的原因,即推薦内容多樣性的變化。

我們通過計算每個使用者在同一區間内各産品嵌入向量的歐式距離(公式如下),利用同一區間的距離均值表示推薦内容的多樣性。平均距離越大, 說明推薦的内容越豐富。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

之後我們計算同一組使用者區間的平均推薦内容多樣性,結果如表6和圖5 所示。盡管存在多樣性下降的整體趨勢,分組結果顯示隻有Following Group存在推薦内容多樣性降低,Ignoring Group的下降并不顯著。

了解電子商務系統中的回音室效應 | SIGIR論文解讀

表6 推薦内容多樣性均值

了解電子商務系統中的回音室效應 | SIGIR論文解讀

圖5 各組使用者推薦内容多樣性的分布

我們可以推斷,Following Group使用者興趣加強是由推薦内容多樣性降低造成的。

六. 結論

根據實驗結果,我們可以确定使用者興趣受到推薦系統影響,傾向于采納推薦産的使用者其偏好會逐漸增強。回音室效應的出現正是由于使用者接觸的資訊範圍變窄,推薦内容的多樣性逐漸下降。我們同時也觀察到回音室效應在不同使用者行為中的程度并不一緻。就點選行為表現出的使用者偏好而言,這種影響較為明顯,但購買行為展現出的使用者喜好則較為穩定,回音室現象一定程度被抑制。我們認為這是由于購買行為受到客觀因素的限制,使用者并不能完全依照興趣喜好消費商品。

我們今後的研究将基于這個結果,設計并構造能夠有效降低回音室和過濾氣泡效應的推薦算法,為電子商務平台的使用者帶來更有效多樣的推薦。

七. 參考文獻

[1] Pranav Dandekar, Ashish Goel, and David T Lee. 2013. Biased assimilation, homophily, and the dynamics of polarization. Proceedings of the National Academy of Sciences 110, 15 (2013), 5791–5796.

[2] Ray Jiang, Silvia Chiappa, Tor Lattimore, András György, and Pushmeet Kohli. 2019. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society. 383–390.

[3] Sina Mohseni and Eric Ragan. 2018. Combating Fake News with Interpretable News Feed Algorithm. arXiv preprint arXiv:1811.12349 (2018).

[4] Tien T Nguyen, Pik-Mai Hui, F Maxwell Harper, Loren Terveen, and Joseph A Konstan. 2014. Exploring the filter bubble: the effect of using recommender systems on content diversity. In Proceedings of the 23rd WWW. ACM, 677–686.

[5] Eli Pariser. 2011. The filter bubble: What the Internet is hiding from you. Penguin UK.

[6] Jizhe Wang, Pipei Huang, Huan Zhao, Zhibo Zhang, Binqiang Zhao, and Dik Lun Lee. 2018. Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba. Proceedings of the 24th ACM SIGKDD (2018).

更多資訊檢索技術内容請檢視:

獨家下載下傳!《SIGIR 頂會論文解讀》電子書重磅釋出

繼續閱讀