天天看點

推薦系統絕對不會向你推薦什麼

推薦系統絕對不會向你推薦什麼

推薦系統還有另外兩大特點,也對你最終看到的推薦結果有着顯著的影響:第一,在弄清楚你和其他購物者的相似度有多高之前,推薦系統必須先弄明白你真正喜歡什麼;第二,推薦系統依照一組商業規則運作,以確定推薦結果既讓你覺得有用,也使商家有利可圖。

推薦算法是如何赢得你的信任,又讓商家有錢可賺的?

采集你的上網資料

舉個例子,來看亞馬遜的藝術品商店,上次我們去看的時候那裡有 900 多萬冊印刷品和海報在降價促銷。亞馬遜的藝術品商店有這樣幾個方法來評估你的喜好。它會讓你在 1 到 5 顆星的等級上給某一件藝術作品打分,它也會記錄下你把哪些畫點選放大了來看、哪些畫你反反複複看了好多次,你把哪些放進了心願單,還有你最終實際下單買了什麼。它還會追蹤在你浏覽過的每一個頁面上都顯示了哪些畫作。線上零售商會使用你在其網站行進的路徑(你浏覽過的頁面和點選商品的連結) 來向你推薦相關聯的商品。此外,它還把你的購買記錄和打分資訊結合起來,建立一個你長期購買偏好的檔案。

像亞馬遜這樣的公司會收集大量此類有關客戶的資料。在你登入期間,你在它網站上的幾乎每一個動作都會被記下來,留作将來使用。多虧有了浏覽器 cookie,連匿名購物者的上網記錄商家也能維持,最終這些資料将在匿名購物者建立賬戶或者登陸時,連結到顧客的個人資料。這種爆炸式的資料采集并非為線上商家所獨有,沃爾瑪便以其對現金收據資料的深入挖掘而著稱于業界。但是,網上商店處在一個更有利的位置去檢視和記錄,不止是消費者買了些什麼,還包括你曾考慮過、浏覽過和決定不買哪些商品。在全世界大部分地區,所有這類活動都是任人監視和記錄的;隻有在歐洲,資料隐私法在一定程度上限制了這種操作。

當然,不論法律如何,顧客發現自己的資料被人濫用後,都會産生強烈的抵觸情緒。早在 2000 年 9 月,亞馬遜吃過一次苦頭:有一部分顧客發現他們收到的報價更高,因為網站将他們識别為老顧客,而不是匿名進入或是從某個比價網站轉接進來的顧客。亞馬遜聲稱這隻是一項随機的價格測試,其呈現出來的結果與老顧客身份之間的關聯純屬巧合。話是這樣說,它還是叫停了這項操作。

在商業規則下運作

加在推薦算法之上的種種商業規則,旨在防止算法給出愚蠢的推薦,并幫助線上零售商在不失去你信任的前提下實作營業額的最大化。最起碼,推薦系統應該避免人們說的超市悖論(supermarket paradox)。例如,差不多每個去超市的人都喜歡吃香蕉,也經常會買一些。那麼,推薦系統該不該向每一位顧客都推薦香蕉呢?答案是否定的——這樣做既幫不上顧客,也提高不了香蕉的銷量。是以,智能的超市推薦系統始終會包括有一條規則,明确地将香蕉排除在推薦結果之外。

這個例子可能聽起來沒什麼,但在我們早期經手的一個項目中,我們的推薦系統就曾經向幾乎每一個到訪我們網站的人推薦披頭士的《白色專輯》(white album)。從統計學的意義上講,這是個很棒的推薦:顧客此前都沒有從這個電子商務網點購買過這張專輯,而大多數顧客對《白色專輯》的評價都很高。盡管如此,這個推薦仍然是無效的——任何一個對《白色專輯》感興趣的人都已經有了一張了。

當然,大部分的推薦規則都是更加微妙的。比如說,當約翰在 9 月份在 netflix 索動作影片時,結果中不會出現《複仇者聯盟》(the avengers),因為這部大片在當時還沒有租借版,這樣的推薦結果不會讓 netflix 有錢賺。是以,約翰被導向了《鋼鐵俠 2》(iron man 2),這部片已經可以用流媒體播放了。

其他的規則還包括禁止推薦為招徕顧客而虧本銷售的商品(loss leader);反過來,鼓勵推薦滞銷品。在經營net perceptions期間,我們就曾與一位客戶合作,他利用推薦系統來識别庫存積壓商品的潛在客戶,取得了相當大的成功。

赢取你的信任

然而,這種事情很快就會變得棘手起來。一個隻會推銷高利潤商品的推薦算法是不會赢得顧客的信任的。這就像是去餐館,那兒的服務生極力向你推薦某道魚一樣。這個魚真的是他覺得最好吃的嗎?還是大廚催着底下的人趕在魚變質前把它給賣出去?

為了建立信任感,更複雜的推薦算法會盡力保持一定的透明度,讓顧客對系統為什麼會向自己推薦這件商品有一個大緻的概念,并且在不喜歡收到的推薦結果時,可以更改他們的個人資料。比如說,你可以删除你在亞馬遜上買來送禮的購物記錄;畢竟,那些東西反映的不是你個人的喜好。你還可以知道系統為什麼會向你推薦某些産品。當亞馬遜為約翰挑選了 jonathan franzen 的小說《自由》之後,約翰點選标簽上的連結“為什麼推薦給我?”。随即顯示出一份簡要的說明,原來是他放在心願單裡的幾本書觸發了這一推薦。不過,由于他還沒有讀過心願單上的那幾本書,約翰就不去管《自由》這個推薦結果了。像這樣的解釋說明會讓使用者明白推薦結果是否有用。

但是,完善個人資料和解釋推薦結果往往不足以保證系統不出錯。最近,亞馬遜用高清大螢幕電視機(hdtv)的促銷電子郵件對喬進行了轟炸——每周 3 封,連續扔了一個月。除了給喬寄了過多的電子郵件,這家零售商還沒有意識到,喬已經用他妻子的賬戶買了一台電視機。此外,這些電子郵件并沒有提供一種很明顯的方法,讓喬可以說“謝謝,但我不感興趣”。最終,喬取消了他在亞馬遜的一些郵件訂閱;他并不在意收不到各種資訊,而且他有了更多的時間來真的看他的電視。

推薦算法的作用究竟有多大?

推薦系統絕對不會向你推薦什麼

alumni.berkeley.edu

那好,推薦算法究竟起了多大作用呢?它們當然一直都在增加線上銷售額;據阿倫森集團(aaronson group)的分析師傑克•阿倫森(jack aaronson)估計,由于推薦算法帶動銷售額的增長,對推薦算法的投資能獲得 10%-30% 的收益。而且,它們還隻是剛剛起步。現在,對我們這些研究推薦系統的人來說,最大的挑戰在于弄清楚如何去判斷新的方法和算法才最好。這可不像基準化分析微處理器那麼簡單,因為不同的推薦系統有着非常不同的目标。

評價一個算法最簡單的方法,是看它的預測和使用者的實際評價之間差異有多大。舉例來說,假如約翰給青春浪漫小說《暮光之城》(twilight )一顆星,亞馬遜或許會注意到算法根據其他相似使用者的評價曾預計約翰會給兩顆星,也即出現了一顆星的偏差。但是,賣家更加關心算法在使用者評價高的商品上出的錯,因為好評多的物品是顧客更有可能購買的;約翰反正也不會買《暮光之城》。是以,把這個評價計入考慮對了解推薦算法起了多大作用沒什麼幫助。

另一個常見方法是看算法給出的推薦結果和顧客實際購買的商品,之間比對度有多高。不過,這種方法也可能起到誤導作用,因為這樣分析會将使用者自己設法找到的商品錯誤地算在推薦算法的頭上,而使用者自己找得到東西恰恰是最不應該被推薦的!鑒于這些方法的缺點,研究人員一直在研究新的評判名額,不隻看精度,也會關注像發現意外驚喜和多樣性等其他屬性。

發現意外驚喜(serendipity)會權重不尋常的推薦結果,尤其是那些對某一個使用者極具價值,但對其他同類使用者而言沒什麼用的推薦結果。調整為發現意外驚喜的算法會注意到《白色相簿》似乎是一個對幾乎每個人來說都不錯的推薦,是以會改為尋找一個不太常見的選擇——也許是 joan armatrading 的《愛和情感》。這個不那麼熱門的推薦結果不太可能擊中目标,但一旦它遇上了,則将給使用者帶來一個大得多的驚喜。

看推薦結果的多樣性同樣也很能說明問題。比方說,一個超愛看 dick francis 神秘類小說的使用者,在看到推薦表單裡全都是 dick francis 的作品時,仍有可能會感到失望。一個真正多樣化的推薦表單會包括不同作者和不同類型的書,還有電影、遊戲和其他的産品。

推薦系統研究則需要突破各種各樣的阻礙,遠不止是在現有的系統上進行微調。研究者們眼下正在考慮的是,推薦算法應該在怎樣一個程度上幫助使用者發掘一個網站的内容集合中他們未曾了解的部分。比方說,把買書的人送去亞馬遜的服裝部門,而不是給一些安全的、顧客更有可能接受的推薦結果。在零售世界之外,推薦算法可以幫助人們接觸到新的想法;就算我們不同意其中的一些,但整體作用大概會是積極的,因為這将有助于減少社會的巴爾幹化(balkanization,即碎片化)。推薦算法能不能做到這一點,還要不讓人感到厭煩或者不信任,仍需拭目以待。

但有一點是明确的:推薦系統隻會變得越來越好,收集越來越多關于你的資料,并在别的、意想不到的地方展示出來。如果你喜歡這篇文章,亞馬遜會很樂意向你推薦其他所有你可能會喜歡的關于推薦系統的書。

原文釋出時間為:2015-04-21 

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀