冷啟動問題(新産品,新使用者)
一.推薦系統需要根據使用者的曆史行為和興趣來預測使用者未來的行為和興趣,如何在沒有大量使用者資料的情況下設計個性化推薦系統并讓使用者對推薦結果滿意進而願意使用推薦系統,就是冷啟動問題。
二.分類:
- 使用者冷啟動:如何給新使用者做個性化推薦
- 物品冷啟動:如何将新物品推薦給可能對其感興趣的使用者。在新聞網站等時效性很強的網站中非常重要。
- 系統冷啟動:如何在一個新開發的網站上設計個性化推薦,進而在網站剛釋出時就讓使用者體驗到個性化推薦服務。新網站沒有使用者,沒有使用者行為,隻有一些物品資訊。
三.解決辦法
1.提供非個性化的推薦:
- 提供熱門排行榜:最簡單的就是給使用者推薦熱門排行榜,等到使用者資料收集到一定的時候,再切換為個性化推薦;
- 推薦随機的熱門内容:推薦随機的熱門内容,再通過評估使用者的點選來快速調整;
- 提供具有很高覆寫率的啟動物品集合:在冷啟動時,我們不知道使用者的興趣,而使用者興趣的可能性非常多,我們需要提供具有很高覆寫率的啟動物品集合,這些物品能覆寫幾乎所有主流的使用者興趣。
2.利用使用者注冊資訊:
- 人口統計學資訊:年齡、性别、職業、民族、學曆和居住地等;
- 使用者興趣的描述:部分網站會讓使用者用文字來描述興趣;
- 從其他網站導入的使用者站外行為:比如使用者利用社交網站賬号登入,就可以在獲得使用者授權的情況下導入使用者在該社交網站的部分行為資料和社交網絡資料。
3.利用内容特征的相似度:
- 如果是要對一個新内容推薦相關的其他内容,那麼可以多多利用内容特征的相似度。
稀疏性問題
現實生活中,電子商務推薦系統中使用者和項目的數量是非常龐大的,而且随着時間的推移而越來越多。由此而言,使用者對項目的評價資料也越來越多。但是對于如此龐大的項目數量,每個使用者不可能對每個項目進行評價。據統計,一般使用者購買商品的總數僅占網站商品總數的1%-2%,使用者對項目的評價資料也是如此,造成使用者——項目評價矩陣非常稀疏。顯然,基于這樣的稀疏矩陣計算得來的使用者相似性是不準确的。
資料稀疏情況下使用者-項目評價矩陣
資料稠密情況下使用者-項目評價矩陣
- 傳統的協同過濾推薦算法是通過計算使用者之間的相似性, 尋找與目标使用者興趣相似的一組使用者, 作為目标使用者的最近鄰居。然而, 由于資料的極端稀疏性, 兩個使用者共同評分的産品非常少, 得到使用者之間的相似性很有可能為 0。是以, 出現了基于項目的協同過濾推薦技術。
- 基于項目的協同過濾推薦算法 , 從産品角度進行分析, 尋找與目标産品相似的産品集合, 然後進行預測和推薦。它基于一個假設, 即使用者對與其感興趣産品相似的産品也感興 趣。由于項目間的相似性相對穩定, 而通常項目的數量比使用者數量少, 這樣可以減少計算量, 降低資料稀疏性。
降低矩陣維數的技術
- 降低矩陣維數的技術可對原始稀疏資料直接進行資料處理, 降低資料稀疏性。
算法可擴充性(适應系統規模不斷擴大的問題)
電子商務的不斷快發展帶動使用者數量的不斷增加,同時加入到電子商務網站中的項目數量也在成指數上升,是以也會加重推薦系統的計算負擔。資料量一定的時候可能是高效的算法,但當資料量增加時不僅會出現計算時間的增加,同時對于推薦系統的準确度也會造成一定的影響。算法的擴充性問題是制約推薦系統發展的一個重要因素。