天天看點

人工智能資料收集一

雖然從市場使用者調研到網際網路電商平台産品設計,再到上線營運推廣,覆寫的面很寬,但我仔細對整個網際網路電商平台知識體系梳理了一遍,其中,最為關鍵和難度最高的就是個性化推薦系統、搜尋和大資料系統,其實不難看出,個性化推薦系統和搜尋底層都是基于大資料,是以最終各條産品線和技術都歸集到大資料系統上,後續我會逐一對每個難點進行分析,本篇就針對使用者個性化推薦系統設計進行分享。
人工智能資料收集一

通過對多個大型網際網路電商平台的跟蹤研究,個性化智能推薦系統設計建設由三步構成:第一建立平台使用者行為的召回模型,次元基于使用者曆史行為資料召回、使用者偏好召回和使用者地域召回來實作,使用者曆史行為資料召回基于使用者曆史浏覽、點選、購買、評論、分享、收藏、關注等觸點,分類推薦線上相關、線上相似、離線相關、離線相似行為;基于使用者偏好召回是基于使用者歸類畫像與平台多屏互通融合;基于使用者地域召回是基于使用者地域的網格化來實作地域行為推薦算法;第二是召回模型比對算法,利用高斯邏輯回歸及多元算法來得出與使用者召回行為的比對商品及廣告資訊;第三是平台針對比對模型推薦結果的排序算法,基于使用者互動日志通過模型訓練特征權重,采用排序算法來實作自動比對個性化推薦。在系統實作技術架構上,為支撐個性化推薦系統平均至少每周進行算法疊代,采用Hbase、Spark及MapReduce等系統架構,在個性化推薦系統優化更新中,與DNN融合的速度越來越快。

個性化智能推薦最終的目标就是讓一個普通通路電商平台的使用者,在進入平台頁面時,系統能夠根據使用者日常的行為偏好和習慣,使用者心理想要購買的商品,在還沒有發生點選行為時,系統能自動推薦到使用者通路的頁面,提升平台使用者下單轉化率。即使在使用者沒有通路平台時,企業通過與使用者日常浏覽網際網路行為軌迹的平台進行聯盟合作,在聯盟平台推送使用者希望購買的商品廣告和連結,刺激和引導使用者點選購買。即使在使用者沒有打開電腦時,能夠通過資訊和郵件的方式,根據使用者平常的購買頻次和周期,在特定的時間推送到使用者手機和電腦。

平台前端實作使用者千人千面,而後端需要建立複雜的使用者全網行為資料采集、存儲加工、資料模組化和使用者畫像過程,單純采集網際網路電商平台資料,僅能達到個性化推薦效果的40%左右,如果要提升個性化推薦的效果,就必須覆寫使用者全網行為軌迹,甚至使用者線下的行為軌迹,這就形成了以網際網路電商平台為核心的生态系統,也能說明阿裡、騰訊為什麼要控股或收購各行業企業的原因。

1、使用者行為資料采集

首先需要在采集的網際網路平台進行埋點,在頁面放置“蜘蛛”探針、采集業務系統所有通路和記錄檔、從資料庫中提取業務資料,采集回來存儲在資料倉庫,采集伺服器組負責将采集到的日志資訊生成檔案,落地到儲存設備;ETL伺服器負責将日志檔案和結構化資料導入Hadoop分析叢集,并将分析結果導出到Oracle資料庫;資料解析伺服器負責連接配接hadoop環境,完成資料分析各項計算;Hadoop和Hive提供資料分布式存儲和計算的基礎架構;排程實作以上資料導入、分析和結果導出的所有任務的統一排程;資料展示伺服器負責資料分析結果的多種形式展現。

人工智能資料收集一

目前做大資料平台的公司,大多數采集的資料名額和輸出的可視化報表,都存在幾個關鍵問題:

  1. 采集的資料都是以管道、日期、地區統計,無法定位到具體每個使用者;
  2. 計算統計出的資料都是規模資料,針對規模資料進行挖掘分析,無法支援;
  3. 資料無法支撐系統做使用者獲客、留存、營銷推送使用;

是以,要使系統采集的資料名額能夠支援平台前端的個性化行為分析,必須圍繞使用者為主線來進行畫像設計,在初期可視化報表成果基礎上,将統計出來的不同規模資料,細分定位到每個使用者,使每個資料都有一個使用者歸屬。将分散無序的統計資料,在依據使用者來銜接起來,在現有産品界面上,每個統計資料都增加一個标簽,點選标簽,可以展示對應每個使用者的行為資料,同時可以連結到其他統計資料頁面。由此可以推導出,以使用者為主線來建立資料采集名額次元:使用者身份資訊、使用者社會生活資訊、使用者資産資訊、使用者行為偏好資訊、使用者購物偏好、使用者價值、使用者回報、使用者忠誠度等多個次元,依據建立的采集資料次元,可以細分到資料名額或資料屬性項。

① 使用者身份資訊次元

性别,年齡,星座,居住城市,活躍區域,證件資訊,學曆,收入,健康等。

② 使用者社會生活資訊次元

行業,職業,是否有孩子,孩子年齡,車輛,住房性質,通信情況,流量使用情況……

③ 使用者行為偏好資訊

是否有網購行為,風險敏感度,價格敏感度,品牌敏感度,收益敏感度,産品偏好,管道偏好……

④ 使用者購物偏好資訊

品類偏好,産品偏好,購物頻次,浏覽偏好,營銷廣告喜好,購物時間偏好,單次購物最高金額……

⑤ 使用者回報資訊次元

使用者參與的活動,參與的讨論,收藏的産品,購買過的商品,推薦過的産品,評論過的産品……

使用者畫像标題體系設計

人工智能資料收集一

通過建立的使用者行為資料采集名額體系後,将其再細分到資料屬性值,進入這個環節,就需要依賴各種建立的資料模型或函數算法,來對平台使用者進行特征提取分析,計算出使用者對應的畫像資料值,這才是使用者畫像過程中最為關鍵的環節。舉個例子:如果一個使用者通路浏覽一個電商平台,注冊時沒有填寫性别,平台如何通過使用者産生的通路浏覽行為,來計算出使用者的性别。絕大多數電商平台都是通過使用者的浏覽商品,為其推薦相同或相關的商品或相關商品類目商品,使用者浏覽了連衣裙,并不能說明使用者就是女性,是以,要能夠更加準确的向使用者推薦個性化商品,就必須通過資料特征提取,函數算法來計算出使用者的性别。

人工智能資料收集一

2、資料存儲加工

使用者行為資料采集後,需要存儲在資料倉庫,對采集的原始資料進行ETL加工處理,首先需要處理掉存儲的無效重複資料,對于使用者行為沒有影響或重複資料,對非結構化資料和半結構化資料進行結構化處理,并對資料進行補缺、替換、資料合并、資料拆分、資料加載和異常處理。(這個環節更多是技術程式處理)

3、資料模組化及使用者特征提取、使用者畫像

對于加工處理後的使用者行為資料,利用開源的機器學習分類器包,調用封裝好的各種資料函數,神經網絡、支援向量機、貝葉斯等對資料進行聚類、分類和預測,根據第一步設計的使用者畫像标簽體系,對通路平台的使用者計算行為特征值,使用者特征提取并不是針對所有的标簽次元,對于優先關鍵标簽,如果從使用者資料庫查詢不到特征值,就需要調用R函數對其進行計算,最終得出每個标簽次元的特征值,依據特征屬性值,就可以對使用者進行畫像處理。

人工智能資料收集一

按照使用者屬性和行為特征對全部使用者進行聚類和精細化的客戶群細分,将使用者行為相同或相似的使用者歸類到一個子庫,這樣就可以将電商平台所有的使用者劃分為N個不同子庫,每個子庫使用者擁有相同或相似的行為特征,到這一步,電商平台就可以按照不同子庫行為對其進行個性化智能推薦。

人工智能資料收集一

目前國内主流電商平台,在進行個性化智能推薦系統更新過程,都在逐漸向DNN滲透和擴充,也是未來個性化智能推薦必經之路。在現有使用者畫像、使用者屬性打标簽、客戶和營銷規則配置推送、同類型使用者特性歸集分庫模型基礎上,未來将逐漸擴充機器深度學習功能,通過系統自動搜集分析前端使用者實時變化資料,依據建設的機器深度學習函數模型,自動計算比對使用者需求的函數參數和對應規則,推薦系統根據計算出的規則模型,實時自動推送高度比對的營銷活動和内容資訊。

人工智能資料收集一

歸根結底,無論是做個性化智能推薦還是大資料進行研究探索,最終都是要達到讓系統更加智能的準确識别和推送使用者心理想要的産品或内容,也就是網際網路平台與使用者前端互動的效果,使系統具有人類大腦的效果,更加智能、甚至學會思考。

作者簡介:劉永平 ,10年以上網際網路電商、網際網路金融項目實操經驗,任職産品總監,産品咨詢專家,曾親自主導參與項目超過15個,10個以上從0到1實操經驗。

版權聲明:本文為CSDN部落客「weixin_34268579」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:https://blog.csdn.net/weixin_34268579/article/details/91736555