大資料技術叢書
資料挖掘與資料化營運實戰:思路、方法、技巧與應用
盧輝 著
圖書在版編目(cip)資料
資料挖掘與資料化營運實戰:思路、方法、技巧與應用 / 盧輝著.—北京:機械工業出版社,2013.6
(大資料技術叢書)
isbn 978-7-111-42650-9
i. 數… ii. 盧… iii. 資料采集 iv. tp274
中國版本圖書館cip資料核字(2013)第111479号
版權所有·侵權必究
封底無防僞标均為盜版
本書法律顧問 北京市展達律師事務所
本書是目前有關資料挖掘在資料化營運實踐領域比較全面和系統的著作,也是諸多資料挖掘書籍中為數不多的穿插大量真實的實踐應用案例和場景的著作,更是創造性地針對資料化營運中不同分析挖掘課題類型,推出一一對應的分析思路集錦和相應的分析技巧內建,為讀者提供“菜單化”實戰錦囊的著作。作者結合自己資料化營運實踐中大量的項目經驗,用通俗易懂的“非技術”語言和大量活潑生動的案例,圍繞資料分析挖掘中的思路、方法、技巧與應用,全方位整理、總結、分享,幫助讀者深刻領會和掌握“以業務為核心,以思路為重點,以分析技術為輔佐”的資料挖掘實踐應用寶典。
全書共19章,分為三個部分:基礎篇(第1~4章)系統介紹了資料分析挖掘和資料化營運的相關背景、資料化營運中“協調配合”的核心,以及實踐中常見分析項目類型;實戰篇(第6~13章)主要介紹實踐中常見的分析挖掘技術的實用技巧,并對大量的實踐案例進行了全程分享展示;思想意識篇(第5章,第14~19章)主要是有關資料分析師的責任、意識、思維的培養和提升的總結和探索,以及一些有效的項目質控制度和經典的方法論介紹。
機械工業出版社(北京市西城區百萬莊大街22号 郵政編碼 100037)
責任編輯:朱秀英
印刷
2013年6月第1版第1次印刷
186mm×240 mm·17.25印張
标準書号:isbn 978-7-111-42650-9
定 價:59.00元
凡購本書,如有缺頁、倒頁、脫頁,由本社發行部調換
客服熱線:(010)88378991 88361066 投稿熱線:(010)88379604
購書熱線:(010)68326294 88379649 68995259 讀者信箱:[email protected]
推 薦 序
所謂,自知者明。
一個資料分析師,在面對海量資料時,偶爾把自己也當做對象去分析、思考、總結,才能成為一位有那麼點兒味道的資料分析師,才能不斷地審視、提升分析水準,才能在資料分析的道路上走得更遠。
本書就是作者盧輝對過去10年資料挖掘職業生涯的自省、總結、提煉。
以前看的資料挖掘書籍,很難看到國内企業的完整執行個體。而本書分享的資料化營運實戰案例都是來自阿裡巴巴b2b近3年來的商業實踐, 有立竿見影的案例,也有充滿了波折和反複的案例。面對這些實戰中的挫折和曲折,作者分享了如何調整思路、調整方法,如何與業務方一起尋找新方案,最終如何達成滿意的商業應用效果。這些分享都非常真實、非常可貴,相信這些完整的實戰案例将給你全新的閱讀體驗,還你一個真實清楚的有關資料挖掘商業應用的原貌,也會對讀者今後的資料挖掘商業實踐起到很好的啟迪和參考作用。
從這個角度看,本書就是作者摸索出的一系列有關資料挖掘和資料化營運的規律,是作者對資料分析師有效工作方法的架構和總結。
如果你是新入行(或者有興趣進入資料分析行業)的讀者,這本書對你是非常有參考和指導意義的:幫助你盡快入門,盡快成長。如果你是已具有一定工作經驗的資料分析專業人士,本書亦可作為一面“鏡子”,去引發你對于“自己的思考”、“自己的總結”。
通過閱讀本書,讀者朋友們可以問問自己:
資料分析挖掘的技巧,掌握了多少?
書中的實戰案例,有實操過嗎?
資料分析師對分析/資料的态度,你是否具備?
如何有效管理團隊?
如果上述某些方面你沒有想過,這本書會給你有意義的啟迪。
最後,請允許我再唠叨些資料的未來吧:
關于分析師
不久的将來,或就是現在,資料分析師将直面新的挑戰(也是一次轉型機會):在原有分析師職業定位上,為了與業務應用更加貼合,開始逐漸融入産品經理“角色”:善于總結、善于提煉、善于推而廣之、善于把自己的分析“産品化”。要做到這些,就要求資料分析師必須對資料的了解更透徹,對商業的了解更深入。
在成熟階段,資料分析師們将是一群具備了商業了解、資料分析、商業應用思考這三大核心能力的綜合體。
關于資料品質
在資料化營運道路上,有不少難題亟待解決。其中最棘手、最突出的就是資料品質。
企業的資料化商業實踐中,“資料給自己用”與“資料給别人去用”是兩個完全不同難度的課題,好比在家做幾道家常菜和開餐廳,後者對于口味品質更為嚴格苛刻,食客們的眼睛都盯着呢。
這本書寫了“自己使用資料、分析資料”的心得;在未來,當資料可以很容易地被大家使用的時候,我們會發現資料的力量已經滲透到每個人的決策環節裡了。
車品覺
阿裡巴巴資料委員會會長
前 言
為什麼要寫這本書
自從2002年第一次接觸 “資料挖掘”(data mining)這個新名詞以來,轉眼之間我已經在資料挖掘商業應用相關領域度過了11年。這11年裡我既見識了國外資料挖掘商業應用如火如荼地開展;又經曆了從21世紀開始,國内企業在資料挖掘商業應用中的摸索起步,到如今方興未艾的局面;更有幸在經曆了傳統行業的資料挖掘商業應用之後,投身到網際網路行業(當今資料分析商業應用熱火朝天、發展最快,并且對資料和資料挖掘的商業應用依賴性最強的行業)的資料挖掘商業實踐中。這11年是我職業生涯中最為重要的一段時光,從個人生存的角度來說,我找到了謀生和養家糊口的飯碗—資料挖掘工作;從個人歸屬的角度來說,我很幸運地碰到了職業與興趣的重合點。
在國内,“資料挖掘”作為一門複合型應用學科,其在商業領域的實踐應用及推廣隻有十幾年的時間,在此期間,國内雖然陸續出版了一些相關的書籍,但是絕大多數都是基于理論或者國外經驗來闡述的,少有針對國内企業相關商業實戰的詳細介紹和分享,更缺乏從資料分析師的角度對商業實戰所進行的總結和歸納。是以,從商業應用出發,基于大量的商業實戰案例而不是基于理論探讨的資料挖掘應用書籍成為當今圖書市場和廣大“資料挖掘”學習者的共同需求。
同時,在有幸與資料挖掘商業實踐相伴11年之後,我也想稍微放慢些腳步,正如一段長途跋涉之後需要停下腳步,整理一路經曆的收獲和感悟一樣,我希望将自己一路走來的心得與體會、經驗與教訓、挫折與成績整理出來。
基于以上原因,我決定從資料挖掘的商業需求和商業實戰出發,結合我10多年來在不同行業(尤其是最近4年在網際網路行業)的大量資料挖掘商業實戰項目,将自己這些年來積累的經驗和總結分享出來,希望能夠起到抛磚引玉的作用,為對資料挖掘商業實踐感興趣的朋友、愛好者、資料分析師提供點滴的參考和借鑒。同時,鑒于“資料化營運”在當今大資料時代已經成為衆多(以後必将越來越多)現代企業的普遍經營戰略,相信本書所分享的大量有關資料化營運的商業實踐項目也可以為企業的管理層、決策層提供一定程度的參考和借鑒。
我相信,本書總結的心得與體會,可以推動自己今後的工作,會成為我的财富;同時,這些心得與體會對于部分資料分析師來說也可以起到不同程度的參考和借鑒作用;對于廣大對資料挖掘商業應用感興趣的初學者來說也未嘗不是一種寶貴經驗。
我是從機械制造技術與裝置這個與“資料挖掘”八竿子打不着的專業轉行到資料挖掘商業應用行業的,這與目前國内絕大多數的資料分析挖掘專業人士的背景有較大差别(國内絕大多數資料分析挖掘專業人士主要來自統計專業、數學專業或者計算機專業)。我的職業道路很曲折,之是以放棄了自己沒興趣的機械制造技術與裝置專業,是因為自己喜歡市場營銷。有幸在國外學習市場營銷專業時了解并親近了國外市場營銷中的核心和基石—市場營銷資訊學(marketing informatics)。當然,這是國外10多年前的說法,換成行業内與時俱進的新說法,就是時下耳熟能詳的“資料分析挖掘在市場營銷領域的商業實踐應用”)。說這麼多,其實隻是想告訴有緣的對資料挖掘商業實踐感興趣的朋友, “以業務為核心,以思路為重點,以挖掘技術為輔佐”就是該領域的有效成長之路。
很多初學者總以為掌握了某些分析軟體,就可以成為資料分析師。其實,一個成功的資料挖掘商業實踐,核心的因素不是技術,而是業務了解和分析思路。本書自始至終都在力圖用大量的事實和案例來證明“以業務為核心,以思路為重點,以挖掘技術為輔佐”才是資料挖掘商業實踐成功的寶典。
另外,現代企業面對大資料時代的資料化營運絕不僅僅是資料分析部門和資料分析師的事情,它需要企業各部門的共同參與,更需要企業決策層的支援和推動。
讀者對象
對資料分析和資料挖掘的商業實踐感興趣的大專院校師生、對其感興趣的初學者。
網際網路行業對資料分析挖掘商業實踐感興趣的營運人員以及其他專業的人士。
實施資料化營運的現代企業的營運人員以及其他專業的人士,尤其是企業的管理者、決策者(資料化營運戰略的制定者和推動者)。
各行各業的資料分析師、資料挖掘師。
勘誤和支援
由于作者水準和能力有限,編寫時間倉促,不妥之處在所難免,在此懇請讀者批評指正。作者有關資料挖掘商業實踐應用的專業部落格 “資料挖掘 人在旅途”位址為http://shzxqdj.blog.163.com,歡迎讀者和資料挖掘商業實踐的愛好者不吝賜教。另外,如果您有關于資料挖掘商業實踐的任何話題,也可以發送郵件到郵箱 [email protected] ,期待你們的回報意見。
如何閱讀本書
本書分為19章。
第1~4章為基礎和背景部分,主要介紹資料分析挖掘和資料化營運的相關背景、資料化營運中“協調配合”的本質,以及實踐中常見的分析項目類型。
第6~13章是資料分析挖掘中的具體技巧和案例分享部分,主要介紹實踐中常見的分析挖掘技術的實用技巧,并對大量的實踐案例進行了全程分享展示。
第5章,第14~19章是有關資料分析師的責任、意識、思維的培養和提升的總結與探索,以及一些有效的項目質控制度和經典的方法論。
本書幾乎每章都會用至少一個完整翔實的實戰案例來進行說明、反複強化“以業務為核心,以思路為重點,以挖掘技術為輔佐”,希望能給讀者留下深刻印象,因為這是資料挖掘商業實踐成功的寶典。
緻謝
首先要感謝機械工業出版社華章公司的楊繡國(lisa)編輯,沒有您的首倡和持續的鼓勵,我不會想到要寫這樣一本來自實踐的書,也不會順利地完成這本書。寫作過程中,您的幫助讓我對“編輯”這個職業有了新的認識,編輯就是作者背後的無名英雄。在本書出版之際,我向lisa表達我深深的感謝和祝福。同時感謝朱秀英編輯在本書後期編輯過程中付出的辛勞,您的專業、敬業和細心使得書稿中諸多不完善之處得以修正和提高。
作為一名30多歲才從機械工程師轉行,進入資料挖掘及其商業實踐的遲到者,我在資料挖掘的道路上一路走來,得到了無數貴人的幫助和提攜。
感謝我的啟蒙導師,加拿大dalhousie university的資料挖掘課程教授tony schellinck。他風趣幽默的授課風格,嚴謹紮實的專業功底,随手拈來的大量親身經曆的商業實戰案例,以及對待學生的耐心和熱情,讓我作為一名外國學生能有效克服語言和生活環境的挑戰,比較順利地進入資料挖掘的職業發展道路。
感謝回國後給我第一份專業工作機會的前ccg集團(communication central group)商業智能應用事業部總經理justin jencks。中國通justin在我們一起共事的那段日子裡,果敢放手讓我嘗試多個跨行業的探索性商業應用項目,給了我許多寶貴的機會,使我迅速熟悉本土市場,積累了不同行業的實戰案例,這些對我的專業成長非常重要。
感謝4年前給我機會,讓我得以從傳統行業進入網際網路行業的阿裡巴巴集團itbu事業部的前商業智能部門總監李紅偉(鳳梨)。進入網際網路行業之後,我才深深懂得作為一名資料分析師,相比傳統行業來說,網際網路行業有太多的機會可以去嘗試不同的項目,去親曆數不清的“一竿子插到底”的落地應用,去學習面對日新月異的需求和挑戰。
在本書的編寫過程中,得到了淘寶網的商品推薦進階算法工程師陳凡(微網誌位址為hppt://weibo.com/bicloud)和阿裡巴巴b2b的資料倉庫專家蒿亮(微網誌位址為http://weibo.com/airjam;e-mail:[email protected])熱情而專業的幫助和支援。陳凡友情編寫了本書的3.11節,蒿亮友情編寫了本書的1.4.1節和13.1節。
感謝一路走來,在項目合作和交流中給我幫助和支援的各位前輩、上司、朋友和夥伴,包括:上海第一醫藥連鎖經營有限公司總經理顧詠晟先生、新華信國際資訊咨詢北京有限公司副總裁歐萬德先生(alvin)、上海聯都集團的創始人馮鐵軍先生、上海通方管理咨詢有限公司總經理李步峰女士和總監張國安先生、鼎和保險公司的張霖霏先生、盛大文學的資料分析經理張仙鶴先生、途牛網進階營運專家焦延伍先生,以及來自阿裡巴巴的資料分析團隊的上司和夥伴(資深總監車品覺先生、進階專家範國棟先生、資深經理張高峰先生、資料分析專家樊甯先生、資深資料分析師曹俊傑先生、資料分析師宮尚寶先生,等等,尤其要感謝阿裡巴巴資料委員會會長車品覺老師在百忙中熱情地為本書作推薦序,并在序言裡為廣大讀者分享了資料分析師目前面臨的最新機遇和挑戰),以及這個倉促列出的名單之外的更多前輩、上司、朋友和夥伴。
感謝我的父母、姐姐、姐夫和外甥,他們給予了我一貫的支援和鼓勵。
我将把深深的感謝給予我的妻子王豔和女兒露璐。露璐雖然隻是國中一年級的學生,但是在本書的寫作過程中,她多次主動放棄外出玩耍,幫我改稿,給我提建議,給我鼓勵,甚至還為本書設計了一款封面,在此向露璐同學表達我衷心的感謝!而我的妻子,則将家裡的一切事情打理得井井有條,使我可以将充分的時間和精力投入本書的寫作中。謹以此書獻給她們!
盧輝
中國 杭州
目 錄
推薦序
前言
第1章 什麼是資料化營運 / 1
1.1 現代營銷理論的發展曆程 / 2
1.1.1 從4p到4c / 2
1.1.2 從4c到3p3c / 3
1.2 資料化營運的主要内容 / 5
1.3 為什麼要資料化營運 / 7
1.4 資料化營運的必要條件 / 8
1.4.1 企業級海量資料存儲的實作 / 8
1.4.2 精細化營運的需求 / 10
1.4.3 資料分析和資料挖掘技術的有效應用 / 11
1.4.4 企業決策層的倡導與持續支援 / 11
1.5 資料化營運的新現象與新發展 / 12
1.6 關于網際網路和電子商務的最新資料 / 14
第2章 資料挖掘概述 / 15
2.1 資料挖掘的發展曆史 / 16
2.2 統計分析與資料挖掘的主要差別 / 16
2.3 資料挖掘的主要成熟技術以及在資料化營運中的主要應用 / 18
2.3.1 決策樹 / 18
2.3.2 神經網絡 / 19
2.3.3 回歸 / 21
2.3.4 關聯規則 / 22
2.3.5 聚類 / 23
2.3.6 貝葉斯分類方法 / 24
2.3.7 支援向量機 / 25
2.3.8 主成分分析 / 26
2.3.9 假設檢驗 / 27
2.4 網際網路行業資料挖掘應用的特點 / 28
第3章 資料化營運中常見的資料分析項目類型 / 30
3.1 目标客戶的特征分析 / 31
3.2 目标客戶的預測(響應、分類)模型 / 32
3.3 營運群體的活躍度定義 / 33
3.4 使用者路徑分析 / 34
3.5 交叉銷售模型 / 35
3.6 資訊品質模型 / 37
3.7 服務保障模型 / 39
3.8 使用者(買家、賣家)分層模型 / 40
3.9 賣家(買家)交易模型 / 44
3.10 信用風險模型 / 44
3.11 商品推薦模型 / 45
3.11.1 商品推薦介紹 / 45
3.11.2 關聯規則 / 45
3.11.3 協同過濾算法 / 50
3.11.4 商品推薦模型總結 / 54
3.12 資料産品 / 55
3.13 決策支援 / 56
第4章 資料化營運是跨專業、跨團隊的協調與合作 / 57
4.1 資料分析團隊與業務團隊的分工和定位 / 58
4.1.1 提出業務分析需求并且能勝任基本的資料分析 / 58
4.1.2 提供業務經驗和參考建議 / 60
4.1.3 策劃和執行精細化營運方案 / 60
4.1.4 跟蹤營運效果、回報和總結 / 61
4.2 資料化營運是真正的多團隊、多專業的協同作業 / 62
4.3 執行個體示範資料化營運中的跨專業、跨團隊協調合作 / 62
第5章 分析師常見的錯誤觀念和對治的管理政策 / 67
5.1 輕視業務論 / 68
5.2 技術萬能論 / 69
5.3 技術尖端論 / 71
5.4 模組化與應用兩段論 / 72
5.5 機器萬能論 / 73
5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸 / 74
第6章 資料挖掘項目完整應用案例示範 / 76
6.1 項目背景和業務分析需求的提出 / 77
6.2 資料分析師參與需求讨論 / 78
6.3 制定需求分析架構和分析計劃 / 79
6.4 抽取樣本資料、熟悉資料、資料清洗和摸底 / 81
6.5 按計劃初步搭建挖掘模型 / 81
6.6 與業務方讨論模型的初步結論,提出新的思路和模型優化方案 / 83
6.7 按優化方案重新抽取樣本并模組化,提煉結論并驗證模型 / 84
6.8 完成分析報告和落地應用建議 / 86
6.9 制定具體的落地應用方案和評估方案 / 86
6.10 業務方實施落地應用方案并跟蹤、評估效果 / 86
6.11 落地應用方案在實際效果評估後,不斷修正完善 / 88
6.12 不同營運方案的評估、總結和回報 / 88
6.13 項目應用後的總結和反思 / 89
第7章 資料挖掘模組化的優化和限度 / 90
7.1 資料挖掘模型的優化要遵循有效、适度的原則 / 91
7.2 如何有效地優化模型 / 92
7.2.1 從業務思路上優化 / 92
7.2.2 從模組化的技術思路上優化 / 94
7.2.3 從模組化的技術技巧上優化 / 95
7.3 如何思考優化的限度 / 96
7.4 模型效果評價的主要名額體系 / 96
7.4.1 評價模型準确度和精度的系列名額 / 97
7.4.2 roc曲線 / 99
7.4.3 ks值 / 100
7.4.4 lift值 / 102
7.4.5 模型穩定性的評估 / 104
第8章 常見的資料處理技巧 / 105
8.1 資料的抽取要正确反映業務需求 / 106
8.2 資料抽樣 / 107
8.3 分析資料的規模有哪些具體的要求 / 108
8.4 如何處理缺失值和異常值 / 109
8.4.1 缺失值的常見處理方法 / 109
8.4.2 異常值的判斷和處理 / 111
8.5 資料轉換 / 112
8.5.1 生成衍生變量 / 113
8.5.2 改善變量分布的轉換 / 113
8.5.3 分箱轉換 / 114
8.5.4 資料的标準化 / 115
8.6 篩選有效的輸入變量 / 115
8.6.1 為什麼要篩選有效的輸入變量 / 116
8.6.2 結合業務經驗進行先行篩選 / 116
8.6.3 用線性相關性名額進行初步篩選 / 117
8.6.4 r平方 / 118
8.6.5 卡方檢驗 / 119
8.6.6 iv和woe / 120
8.6.7 部分模組化算法自身的篩選功能 / 121
8.6.8 降維的方法 / 122
8.6.9 最後的準則 / 122
8.7 共線性問題 / 123
8.7.1 如何發現共線性 / 123
8.7.2 如何處理共線性 / 123
第9章 聚類分析的典型應用和技術小竅門 / 125
9.1 聚類分析的典型應用場景 / 126
9.2 主要聚類算法的分類 / 127
9.2.1 劃分方法 / 127
9.2.2 層次方法 / 128
9.2.3 基于密度的方法 / 128
9.2.4 基于網格的方法 / 129
9.3 聚類分析在實踐應用中的重點注意事項 / 129
9.3.1 如何處理資料噪聲和異常值 / 129
9.3.2 資料标準化 / 130
9.3.3 聚類變量的少而精 / 131
9.4 聚類分析的擴充應用 / 132
9.4.1 聚類的核心名額與非聚類的業務名額相輔相成 / 132
9.4.2 資料的探索和清理工具 / 132
9.4.3 個性化推薦的應用 / 133
9.5 聚類分析在實際應用中的優勢和缺點 / 134
9.6 聚類分析結果的評價體系和評價名額 / 135
9.6.1 業務專家的評估 / 135
9.6.2 聚類技術上的評價名額 / 136
9.7 一個典型的聚類分析課題的案例分享 / 137
9.7.1 案例背景 / 137
9.7.2 基本的資料摸底 / 137
9.7.3 基于使用者樣本的聚類分析的初步結論 / 138
第10章 預測響應(分類)模型的典型應用和技術小竅門 / 140
10.1 神經網絡技術的實踐應用和注意事項 / 141
10.1.1 神經網絡的原理和核心要素 / 141
10.1.2 神經網絡的應用優勢 / 143
10.1.3 神經網絡技術的缺點和注意事項 / 143
10.2 決策樹技術的實踐應用和注意事項 / 144
10.2.1 決策樹的原理和核心要素 / 144
10.2.2 chaid算法 / 145
10.2.3 cart算法 / 145
10.2.4 id3算法 / 146
10.2.5 決策樹的應用優勢 / 146
10.2.6 決策樹的缺點和注意事項 / 147
10.3 邏輯回歸技術的實踐應用和注意事項 / 148
10.3.1 邏輯回歸的原理和核心要素 / 148
10.3.2 回歸中的變量篩選方法 / 150
10.3.3 邏輯回歸的應用優勢 / 151
10.3.4 邏輯回歸應用中的注意事項 / 151
10.4 多元線性回歸技術的實踐應用和注意事項 / 152
10.4.1 線性回歸的原理和核心要素 / 152
10.4.2 線性回歸的應用優勢 / 153
10.4.3 線性回歸應用中的注意事項 / 153
10.5 模型的過拟合及對策 / 154
10.6 一個典型的預測響應模型的案例分享 / 156
10.6.1 案例背景 / 156
10.6.2 基本的資料摸底 / 156
10.6.3 模組化資料的抽取和清洗 / 158
10.6.4 初步的相關性檢驗和共線性排查 / 159
10.6.5 潛在自變量的分布轉換 / 160
10.6.6 自變量的篩選 / 161
10.6.7 響應模型的搭建與優化 / 162
10.6.8 冠軍模型的确定和主要的分析結論 / 162
10.6.9 基于模型和分析結論基礎上的營運方案 / 164
10.6.10 模型落地應用效果跟蹤回報 / 165
第11章 使用者特征分析的典型應用和技術小竅門 / 166
11.1 使用者特征分析所适用的典型業務場景 / 167
11.1.1 尋找目标使用者 / 167
11.1.2 尋找營運的抓手 / 168
11.1.3 使用者群體細分的依據 / 169
11.1.4 新品開發的線索和依據 / 169
11.2 使用者特征分析的典型分析思路和分析技術 / 170
11.2.1 3種劃分的差別 / 170
11.2.2 rfm / 171
11.2.3 聚類技術的應用 / 172
11.2.4 決策樹技術的應用 / 173
11.2.5 預測(響應)模型中的核心自變量 / 173
11.2.6 假設檢驗的應用 / 174
11.3 特征提煉後的評價體系 / 174
11.4 使用者特征分析與使用者預測模型的差別和聯系 / 175
11.5 使用者特征分析案例 / 176
第12章 營運效果分析的典型應用和技術小竅門 / 177
12.1 為什麼要做營運效果分析 / 178
12.2 統計技術在資料化營運中最重要最常見的應用 / 179
12.2.1 為什麼要進行假設檢驗 / 179
12.2.2 假設檢驗的基本思想 / 179
12.2.3 t檢驗概述 / 180
12.2.4 兩組獨立樣本t檢驗的假設和檢驗 / 181
12.2.5 兩組獨立樣本的非參數檢驗 / 182
12.2.6 配對內插補點的t檢驗 / 183
12.2.7 配對內插補點的非參數檢驗 / 184
12.2.8 方差分析概述 / 186
12.2.9 單因素方差分析 / 187
12.2.10 多個樣本組的非參數檢驗 / 190
12.2.11 卡方檢驗 / 190
12.2.12 控制變量的方法 / 191
12.2.13 ab test / 192
第13章 漏鬥模型和路徑分析 / 193
13.1 網絡日志和布點 / 194
13.1.1 日志布點 / 195
13.1.2 日志采集 / 195
13.1.3 日志解析 / 195
13.1.4 日志分析 / 195
13.2 漏鬥模型與路徑分析的主要差別和聯系 / 196
13.3 漏鬥模型的主要應用場景 / 197
13.3.1 營運過程的監控和營運效率的分析與改善 / 197
13.3.2 使用者關鍵路徑分析 / 198
13.3.3 産品優化 / 198
13.4 路徑分析的主要應用場景 / 198
13.5 路徑分析的主要算法 / 199
13.5.1 社會網絡分析方法 / 199
13.5.2 基于序列的關聯分析 / 200
13.5.3 最樸素的周遊方法 / 201
13.6 路徑分析案例的分享 / 203
13.6.1 案例背景 / 203
13.6.2 主要的分析技術介紹 / 203
13.6.3 分析所用的資料概況 / 203
13.6.4 主要的資料結論和業務解說 / 203
13.6.5 主要分析結論的落地應用跟蹤 / 206
第14章 資料分析師對業務團隊資料分析能力的培養 / 208
14.1 培養業務團隊資料分析意識與能力的重要性 / 209
14.2 資料分析師在業務團隊資料分析意識能力培養中的作用 / 210
14.3 資料分析師如何培養業務團隊的資料分析意識和能力 / 210
14.4 資料分析師培養業務團隊資料分析意識能力的案例分享 / 212
14.4.1 案例背景 / 212
14.4.2 過程描述 / 212
14.4.3 本項目的效果跟蹤 / 214
第15章 換位思考 / 216
15.1 為什麼要換位思考 / 217
15.2 從業務方的角度換位思考資料分析與挖掘 / 218
15.3 從同行的角度換位思考資料分析挖掘的經驗教訓 / 220
第16章 養成資料分析師的品質和思維模式 / 222
16.1 态度決定一切 / 223
16.1.1 信念 / 223
16.1.2 信心 / 224
16.1.3 熱情 / 225
16.1.4 敬畏 / 226
16.1.5 感恩 / 227
16.2 商業意識是核心 / 228
16.2.1 為什麼商業意識是核心 / 228
16.2.2 如何培養商業意識 / 229
16.3 一個基本的方法論 / 230
16.4 大膽假設,小心求證 / 231
16.5 20/80原理 / 233
16.6 結構化思維 / 233
16.7 優秀的資料分析師既要客觀,又要主觀 / 234
第17章 條條大道通羅馬 / 236
17.1 為什麼會條條大道通羅馬 / 237
17.2 條條大道有側重 / 238
17.3 自覺服從和積極響應 / 239
17.3.1 自覺服從 / 239
17.3.2 積極響應 / 240
17.4 具體示例 / 242
第18章 資料挖掘實踐的品質保障流程和制度 / 243
18.1 一個有效的品質保障流程制度 / 244
18.1.1 業務需求的收集 / 245
18.1.2 評估小組評估需求的優先級 / 246
18.1.3 課題組的成立及前期摸底 / 247
18.1.4 向業務方送出正式課題(項目)計劃書 / 247
18.1.5 資料分析挖掘的課題展開 / 248
18.1.6 向業務方送出結論報告及業務落地應用建議 / 248
18.1.7 課題(項目)的落地應用和效果監控回報 / 248
18.2 品質保障流程制度的重要性 / 249
18.3 如何支援與強化品質保障流程制度 / 250
第19章 幾個經典的資料挖掘方法論 / 251
19.1 semma方法論 / 252
19.1.1 資料取樣 / 253
19.1.2 資料探索 / 253
19.1.3 資料調整 / 253
19.1.4 模式化 / 254
19.1.5 評價 / 254
19.2 crisp-dm方法論 / 254
19.2.1 業務了解 / 255
19.2.2 資料了解 / 256
19.2.3 資料準備 / 256
19.2.4 模型搭建 / 256
19.2.5 模型評估 / 256
19.2.6 模型釋出 / 256
19.3 tom khabaza的挖掘9律 / 256
第1章
什麼是資料化營運
21世紀核心的競争就是資料的競争,誰擁有資料,誰就擁有未來。
—馬雲
1.1 現代營銷理論的發展曆程
1.2 資料化營運的主要内容
1.3 為什麼要資料化營運
1.4 資料化營運的必要條件
1.5 資料化營運的新現象與新發展
1.6 關于網際網路和電子商務的最新資料
資料化營運是目前企業管理和企業戰略裡非常熱門的一個詞彙。其實施的前提條件包括企業級海量資料存儲的實作、精細化營運的需求(與傳統的粗放型營運相對比)、資料分析和資料挖掘技術的有效應用等,并且還要得到企業決策層和管理層的支援及推動。
資料化營運是現代企業從粗放經營向精細化管理發展的必然要求,是大資料時代企業保持市場核心競争力的必要手段,要進行資料化營運,必須要企業全員的參與和配合。本書讨論的資料化營運主要是指網際網路行業的資料化營運,是以,除非特别申明,本書所有的“資料化營運”專指網際網路資料化營運,盡管本書涉及的分析挖掘技術同樣也适用于網際網路行業之外的其他行業。
資料化營運來源于現代營銷管理,但是在“營銷”之外有着更廣的含義。
1.1 現代營銷理論的發展曆程
1.1.1 從4p到4c
以4p為代表的現代營銷理論可以追溯到1960年出版的(《基礎營銷》英文書名為basic marketing)一書,該理論是由作者傑羅姆·麥卡錫(e.jerome mccarthy)在該書中提出的。到了1967年,“現代營銷學之父”菲利普·科特勒(philip kotler)在其代表作《營銷管理》(marketing management: application, planning, implementation and control)第1版裡進一步确認了以4p為核心的營銷組合方法論。随後,該理論風靡世界,成為近半個世紀的現代營銷核心思想,影響并左右了當時無數的企業營銷戰略。
4p指的是product(産品)、price(價格)、place(管道)和promotion(促銷),如圖1-1所示。4p的内容簡要概括如下。
product:表示注重産品功能,強調獨特賣點。
price:指根據不同的市場定位,制定不同的價格政策。
place:指要注重分銷商的培養和銷售網絡的建設。
promotion:指企業可以通過改變銷售行為來刺激消費者,以短期的行為(如讓利、買一送一、調動營銷現場氣氛等)促成消費的增長,吸引其他品牌的消費者前來消費,或者促使老主顧提前來消費,進而達到銷售增長的目的。
4p理論的核心是product(産品)。是以,以4p理論為核心營銷思想的企業營銷戰略又可以簡稱為“以産品為中心”的營銷戰略。
随着時代的發展,商品逐漸豐富起來,市場競争也日益激烈,尤其進入21世紀後,消費者已成為商業世界的核心。在當今這個充滿個性化的商業時代,傳統的4p營銷組合已經無法适應時代發展的需求,營銷界開始研究新的營銷理論和營銷要素。其中,最具代表性的理論就是4 c理論,這裡的4c包括consumer(消費者)、cost(成本)、convenience(友善性)和communication(溝通交流),如圖1-2所示,4c的内容簡要概括如下:
消費者的需求與願望(customer抯 needs and wants)。
消費者得到滿足的成本(cost and value to satisfy consumer抯 needs and wants)。
使用者購買的友善性(convenience to buy)。
與使用者的溝通交流(communication with consumer)。
4 c理論的核心是consumer消費者。是以,以4c理論為核心營銷思想的企業營銷戰略又可以簡稱為“以消費者為中心”的營銷戰略。
1.1.2 從4c到3p3c
4 c理論雖然成功找到了從“以産品為中心”轉化為“以消費者為中心”的思路和要素,但是随着社會的進步,科技的發展,大資料時代的來臨,4 c理論再次落後于時代發展的需要。大資料時代,日益白熱化的市場競争、越來越嚴苛的營銷預算、海量的資料堆積和存儲等,迫使現代企業不得不尋找更合适、更可控、更可量化、更可預測的營銷思路和方法論。于是在基本思路上融合了4p理論和4c理論的npnc形式的理論出現了。
具體到典型的網際網路行業,雖然學術界對于到底是幾個p和幾個c仍存在着争議,沒有定論,但是這并不妨礙企業積極探索并付諸實踐應用,本書姑且以3p3c為例,如圖1-3所示,概述網際網路行業營運的典型理論探索。
圖1-3 3p3c理論結構圖
在3p3c理論中,資料化營運6要素的内容如下。
probability(機率):營銷、營運活動以機率為核心,追求精細化和精準率。
product(産品):注重産品功能,強調産品賣點。
prospects(消費者,目标使用者)。
creative (創意,包括文案、活動等)。
channel (管道)。
cost/price(成本/價格)。
而在這其中,以資料分析挖掘所支撐的目标響應機率(probability)是核心,在此基礎上将會圍繞産品功能優化、目标使用者細分、活動(文案)創意、管道優化、成本的調整等重要環節和要素,共同促使資料化營運持續完善,直至成功。
需要指出的是,這裡的目标響應機率(probability)不應狹義了解為僅僅是預測響應模型之類的響應機率,它有更寬泛的含義,既可以從宏觀上來了解,又可以從微觀上來诠釋。從宏觀上來了解,機率可以是特定消費群體整體上的機率或可能性。比如,我們常見的通過卡方檢驗發現某個特定類别群體在某個消費行為名額上具有的顯著性特征,這種顯著性特征可以幫助我們進行目标市場的選擇、尋找具有相似特征的潛在目标使用者,制定相應的細分營銷措施和營運方案等,這種方法可以有效提升營運的效率和效果;從微觀上來了解,機率可以是具體到某個特定消費者的“預期響應機率”,比如我們常見的通過邏輯回歸算法搭建一個預測響應模型,得到每個使用者的預計響應機率,然後,根據營運計劃和預算,抽取響應機率分數的消費者,進行有針對性的營運活動等,這種方法也可以有效提升營運的效率和效果。
宏觀的機率更加有效,還是微觀的機率更加有效,這需要結合項目的資源計劃、業務背景、項目目的等多種因素來權衡,不可一概而論。雖然微觀的機率常常更為精細、更加準确,但是在實踐應用中,宏觀的群體性機率也可以有效提升營運效果,也是屬于資料化營運的思路。是以在實踐過程中如何選擇,要根據具體的業務場景和具體的資料分析解決方案來決定。更多延伸性的分析探讨,将在後面章節的具體項目類型分析、技術分享中詳細介紹。
上述3p3c理論有效鎖定了影響營運效果的主要因素、來源,可以幫助營運人員、管理人員、資料分析人員快速區分實踐中的思考次元和着力點,提高思考效率和分析效率。
雖然目前企業界和學術界對于“資料化營運”的定義沒有達成共識,但這并不妨礙“資料化營運”思想和實踐在當今企業界尤其是網際網路行業如火如荼地展開。阿裡巴巴集團早在2010年就已經在全集團範圍内正式提出了“資料化營運”的戰略方針并逐漸實施資料化營運,騰訊公司也在“2012年騰訊智慧上海主題日”高調宣布“大資料化營運的黃金時期已經到來,如何整合這些資料成為未來的關鍵任務”。
綜合業界尤其是網際網路行業的資料化營運實踐來看,盡管各行業對“資料化營運”的定義有所差別,但其基本要素和核心是一緻的,那就是“以企業級海量資料的存儲和分析挖掘應用為核心支援的,企業全員參與的,以精準、細分和精細化為特點的企業營運制度和戰略”。換種思路,可以将其淺層次地了解為,在企業正常營運的基礎上革命性地增添資料分析和資料挖掘的精準支援。這是從宏觀意義上對資料化營運的了解,其中會涉及企業各部門,以及資料在企業中所有部門的應用。但是必須指出,本書所要分享的實戰項目涉及的資料化營運,主要落實在微觀意義的資料化營運上,即主要針對營運、銷售、客服等部門的網際網路營運的資料分析、挖掘和支援上。
注意:這種宏觀和微觀上的差別在本質上對于資料化營運的核心沒有影響,隻是在本書的技術和案例分享中更多聚焦于營運部門、銷售部門、客服部門而已,特此說明。
針對網際網路營運部門的資料化營運,具體包括“網站流量監控分析、目标使用者行為研究、網站日常更新内容編輯、網絡營銷策劃推廣”等,并且,這些内容是在以企業級海量資料的存儲、分析、挖掘和應用為核心技術支援的基礎上,通過可量化、可細分、可預測等一系列精細化的方式來進行的。
資料化營運,首先是要有企業全員參與意識,要達成這種全員的資料參與意識比單純地執行資料挖掘技術顯然是要困難得多,也重要得多的。隻有在達成企業全員的自覺參與意識後,才可能将其轉化為企業全體員工的自覺行動,才可能真正落實到營運的具體工作中。舉例來說,阿裡巴巴集團正在實施的資料化營運,就要求所有部門所有崗位的員工都要貫徹此戰略:從産品開發人員到使用者體驗部門,到産品營運團隊,到客戶服務部門,到銷售團隊和支援團隊,每個人每個崗位都能真正從資料應用、資料管理和資料發現的高度經營各自的本職工作,也就類似于各個崗位的員工,都在各自的工作中自覺利用或簡單或複雜的資料分析工具,進行大大小小的資料分析挖掘,這才是真正的資料化營運的場面,才是真正的從資料中發現資訊财富并直接助力于企業的全方位提升。也隻有這樣,産品開發人員所提出的新概念才不是拍腦袋拍出來的,而是來自于使用者回報資料的提煉;産品營運人員也不再僅僅是每天被動地抄報營運的kpi名額,通過資料意識的培養,他們将在營運前的準備,營運中的把握,營運後的回報、修正、提升上有充分的預見性和掌控力;客戶服務部門不僅僅滿足于為客戶提供滿意的服務,他們學會了從服務中有意識地發現有代表性的、有新概念價值的客戶新需求;銷售部門則不再隻是具有吃苦耐勞的精神,他們可通過資料分析挖掘模型的實施來實作有的放矢、精準營銷的銷售效益最大化。而企業的資料挖掘團隊也不再僅僅局限于單純的資料挖掘技術工作及項目工作,而是肩負在企業全員中推廣普及資料意識、資料運用技巧的責任,這種責任對于企業而言比單純的一兩個資料挖掘項目更有價值,更能展現一個資料挖掘團隊或者一個資料挖掘職業人的水準、眼界以及胸懷,俗話說“隻有能發動人民戰争,才是真正的英雄”,是以隻有讓企業全員都參與并支援你的資料挖掘分析工作,才能夠真正有效地挖掘企業的資料資源。現代企業的上司者,應該有這種遠見和智慧,明白全員的資料挖掘才是企業最有價值的資料挖掘,全員的資料化營運才是現代企業的競争新核心。
資料化營運,其次是一種常态化的制度和流程,包括企業各個崗位和工種的資料收集和資料分析應用的架構和制度等。從員工日常工作中所使用的資料結構和層次,就基本上可以判斷出企業的資料應用水準和效率。在傳統行業的大多數企業裡,絕大多數員工在其工作中很少(甚至基本不)分析使用業務資料支援自己的工作效率,但是在網際網路行業,對資料的重視和深度應用使得該行業資料化營運的能力和水準遠遠超過傳統行業的應用水準。
資料化營運更是來自企業決策者、高層管理者的直接倡導和實質性的持續推動。由于資料化營運一方面涉及企業全員的參與,另一方面涉及企業海量資料的戰略性開發和應用,同時又是真正跨多部門、多技術、多專業的整合性流程,所有這些挑戰都是企業内部任何單個部門所無法獨立承擔的。隻有來自企業決策層的直接倡導和實質性的持續推動,才可以在企業建立、推廣、實施、完善真正的全員參與、跨部門跨專業、具有戰略競争意義的資料化營運。是以,我們不難發現,阿裡巴巴集團也好,騰訊也罷,這些網際網路行業的巨人,之是以能在大資料時代如火如荼地進行企業資料化營運,自始至終都離不開企業決策層的直接倡導與持續推動,其在各種場合中對資料的重要性、對資料化營運的核心競争力價值的強調和分享,都證明了決策層是推動資料化營運的關鍵所在。2012年7月10日,阿裡巴巴集團宣布設立“首席資料官”崗位(chief data officer),阿裡巴巴b2b公司的ceo陸兆禧出任此職位,并會向集團ceo馬雲直接彙報。陸兆禧将主要負責全面推進阿裡巴巴集團成為“資料分享平台”的戰略,其主要職責是規劃和實施未來資料戰略,推進支援集團各事業群的資料業務發展。“将阿裡巴巴集團變成一家真正意義上的資料公司”目前已經是阿裡巴巴集團的戰略共識,阿裡巴巴集團旗下的支付寶、淘寶、阿裡金融、b2b的資料都會成為這個巨大的資料分享平台的一部分。而這個戰略的核心就是如何挖掘、分析和運用這些資料,并和全社會分享。
資料化營運首先是現代企業競争白熱化、商業環境變成以消費者為主的“買方市場”等一系列競争因素所呼喚的管理革命和技術革命。中國有句古語“窮則思變”,當傳統的營銷手段、營運方法已經被同行普遍采用,當正常的營銷技術、營運方法已經很難明顯提升企業的營運效率時,競争必然呼喚革命性的改變去設法提升企業的營運效率,進而提升企業的市場競争力。時勢造英雄,生逢其時的“資料化營運”恰如及時雨,登上了大資料時代企業營運的大舞台,在網際網路營運的舞台上尤其光彩奪目。
其次,資料化營運是飛速發展的資料挖掘技術、資料存儲技術等諸多先進資料技術直接推動的結果。資料技術的飛速發展,使得大資料的存儲、分析挖掘變得成熟、可靠,成熟的挖掘算法和技術給了現代企業足夠的底氣去嘗試海量資料的分析、挖掘、提煉、應用。有了資料分析、資料挖掘的強有力支援,企業的營運不再盲目,可以真正做到營運流程自始至終都心中有數、有的放矢。比如,在傳統行業的市場營銷活動中,有一個無解又無奈的問題:“我知道廣告費浪費了一半,但是我不知道到底是哪一半”。這裡的無奈其實反映的恰好就是傳統行業粗放型營銷的缺點:無法真正細分閱聽人,無法科學監控營銷各環節,無法準确預測營銷效果;但是,在大資料時代的網際網路行業,這種無奈已經可以有效地降低,乃至避免,原因在于通過資料挖掘分析,廣告主可以精細劃分出正确的目标閱聽人,可以及時(甚至實時)監控廣告投放環節的流失量,可以針對相應的環節采取優化、提升措施,可以建立預測模型準确預測廣告效果。
資料化營運更是網際網路企業得天獨厚的“神器”。網際網路行業與生俱來的特點就是大資料,而資訊時代最大的财富也正是海量的大資料。阿裡巴巴集團董事局主席兼首席行政官馬雲曾經多次宣稱,阿裡巴巴集團最大的财富和今後核心競争力的源泉,正是阿裡巴巴集團(包括淘寶、支付寶、阿裡巴巴等所屬企業)已經産生的和今後繼續積累的海量的買賣雙方的交易資料、支付資料、互動資料、行為資料等。2010年3月31日,淘寶網在上海正式宣布向全球開放資料,未來電子商務的核心競争優勢來源于對資料的解讀能力,以及配合資料變化的快速反應能力,而開放淘寶資料正是有效幫助企業建立資料的應用能力。2010年5月14日阿裡巴巴集團在深圳舉行的2010年全球股東大會上,馬雲進一步指出“21世紀核心的競争就是資料的競争”,“誰擁有資料,誰就擁有未來”。企業決策者對資料價值的高度認同,必然會首先落實在自身的企業營運實踐中,這也是“因地制宜”戰略思想在網際網路時代的最新展現,我們也可以了解成“近水樓台先得月”在網際網路時代的最新诠釋。
雖然從上面的分析可以看出,資料化營運有如此多的優越性,但并不是每個企業都可以采取這種新戰略和新管理制度,也不是每個企業都可以從中受益。個中原因在于成功的資料化營運必須依賴幾個重要的前提條件。
1.4.1 企業級海量資料存儲的實作
21世紀核心的競争就是資料的競争,2012年3月29日,美國奧巴馬政府正式宣布了“大資料的研究和發展計劃”(big data research and development initiative),該計劃旨在通過提高我們從大型複雜資料集中提取知識和觀點的能力,承諾幫助加快在科學和工程中探索發現的步伐,加強國家安全。從國家到企業,資料就是生産力。但是,具體到某一個企業,海量資料的存儲是必須要面對的第一個挑戰。資料存儲技術的飛速發展,需要企業與時俱進。根據預測到2020年,全球以電子形式存儲的資料量将達到35zb,是2009年全球存儲量的40倍。而在2010年年底,根據 idc的統計,全球資料量已經達到了1 200 000pb或1.2zb。如果将這些資料都刻錄在dvd上,那麼光把這些dvd盤片堆疊起來就可以從地球到月球打一個來回(單程約24萬英裡,即386 242.56千米)。海量的資料推動了資料存儲技術的不斷發展與飛躍。
我們一起來回顧一下資料存儲技術的發展曆程:
1951年:univac系統使用錄音帶和穿孔卡片作為資料存儲。
1956年:ibm公司在其model 305 ramac中第一次引入了磁盤驅動器。
1961年:美國通用電氣公司(general electric)的charles bachman開發了第一個資料庫管理系統—ids。
1969年:e.f. codd發明了關系資料庫。
1973年:由john j.cullinane上司的cullinane公司開發了 idms—一個針對ibm主機的基于網絡模型的資料庫。
1976年:honeywell公司推出了multics relational data store—第一個商用關系資料庫産品。
1979年:oracle公司引入了第一個商用sql關系資料庫管理系統。
1983年:ibm 推出了db2資料庫産品。
1985年:為procter & gamble系統設計的第一個商務智能系統産生。
1991年:w.h. billinmon發表了文章《建構資料倉庫》。
2012年:最新的存儲技術為分布式資料倉庫、海量資料存儲技術和流計算的實時資料倉庫技術。
回首中國企業的資料存儲之路,國内的資料存儲技術的發展經曆了将近30年,而真正的飛速發展則是最近10年。
國内的資料存儲的先驅是國有銀行,在21世紀初,四大國有銀行的全國資料中心項目(将分布在全國各個省行和直屬一級分行的資料集中到資料中心)拉開了資料技術飛速發展的帷幕。
以發展最具代表性的中國工商銀行為例,中國工商銀行從2001年開始啟動資料集中項目,剛開始考慮集中中國北部的資料到北京,中國南部的資料到上海,最終在2004年将全部資料集中到了上海,而北京則作為災備中心,海外資料中心則安置在深圳。中國工商銀行的資料量在當時是全中國最大的,大約每天的資料量都在tb級别。由于銀行業存在一定的特殊性(性能要求低于安全和穩定要求),又因為當時業内可選的技術不多,是以中國工商銀行選擇了大型機+db2的技術方案,實際上就是以關系型資料庫作為資料存儲的核心。
在3年的資料集中和後續5年基于主題模型(ncr金融模型)的資料倉庫建設期間,中國工商銀行無論在硬體網絡和軟體人力上都投入了巨大的資源,其資料倉庫也終于成為中國第一個真正意義上的企業級資料中心和資料倉庫。
其他銀行和證券保險,甚至電信行業以及房地産行業的資料倉庫建設,基本上也都是采用與工商銀行相似的思路和做法在進行。
不過,随着時間的推移,資料量變得越來越大,硬體的更新換代也越來越快,于是,這類資料倉庫逐漸顯現出了問題,主要表現如下:
少數幾台大型機已經無法滿足日益增加的日終計算任務的執行需求,導緻很多資料結果為t-2(當天資料要延後2天才完成),甚至是t-3(當天資料要延後3天才完成)。
硬體更新和存儲更新的成本非常昂貴,維護、系統開發以及資料開發的人力資源開支也逐年加大。
由于全國金融發展的程序差異很大,資料需求各不一樣,加上成本等原因,不得不将一些資料計算任務下放到各個一級分行或者省分行進行,資料中心不堪重負。
随着網際網路行業的逐漸蓬勃興盛,占領資料存儲技術領域巅峰的行業也從原有的國有銀行企業轉移到了阿裡巴巴、騰訊、盛大、百度這樣的新興網際網路企業。以阿裡巴巴為例,阿裡巴巴資料倉庫也是經曆了坎坷的發展曆程,在多次重建後才最終站在了中國甚至世界的頂峰。
最開始的阿裡巴巴網際網路資料倉庫建設,幾乎就是中國工商銀行的縮小版,網際網路的資料從業人員幾乎全部來自國内各大銀行或電信行業,或者來自國外類似微軟、yahoo這樣的傳統it企業。
随着分布式技術的逐漸成熟和工業化,網際網路資料倉庫迎來了飛速發展的春天。現在,抛棄大型機+關系型資料庫的模型,采用分布式的伺服器叢集+分布式存儲的海量存儲器,無論是從硬體成本、軟體成本還是從硬體更新、日常維護上來講,都是一次飛躍。更重要的是,解決了困擾資料倉庫發展的一個非常重要的問題,即計算能力不足的問題,當100~200台網絡伺服器一起工作的時候,無論是什麼樣的大型機,都已經無法與之比拟了。
拿現在阿裡雲(阿裡巴巴集團資料中心服務提供者)來講,近1000台網絡伺服器分布式并行,支援着每日淘寶、支付寶、阿裡巴巴三大子公司超過pb級别的資料量,随着技術的日益成熟和硬體成本的逐漸降低,未來的資料倉庫将是以流計算為主的實時資料倉庫和分布式計算為主流的準實時資料倉庫。
1.4.2 精細化營運的需求
大資料時代的網際網路行業所面臨的競争壓力甚至已超過了傳統行業。主要原因在于網際網路行業的技術真正展現了日新月異、飛速發展的特點。以中國網際網路行業的發展為例,作為第一代網際網路企業的代表,新浪、搜狐、雅虎等門戶網站的web 1.0模式(傳統媒體的電子化)從産生到被以google、百度等搜尋引擎企業的web 2.0模式(制造者與使用者的合一)所超越,前後不過10年左右的時間,而目前web 2.0模式已經逐漸有被以微網誌為代表的web 3.0模式(sns模式)超越的趨勢。
網際網路行業近乎颠覆性模式的進化演繹、技術的更新換代,既為網際網路企業提供了機遇,又帶給其沉重的競争壓力與生存的挑戰。面對這種日新月異的競争格局,網際網路企業必須尋找比傳統的粗放型營運更加有效的精細化營運制度和思路,以提升企業的效益和效率,而資料化營運就是精細化營運,它強調的是更細分、更準确、更個性化。沒有精細化營運的需求,就不需要資料化營運;隻有資料化營運,才可以滿足精細化的效益提升。
1.4.3 資料分析和資料挖掘技術的有效應用
資料分析和資料挖掘技術的有效應用是資料化營運的基礎和技術保障,沒有這個基礎保障,資料化營運就是空話,就是無本之水,無緣之木。
這裡的有效應用包括以下兩層含義。
一是企業必須擁有一支能夠勝任資料分析和資料挖掘工作的團隊和一群出色的資料分析師。一名出色的資料分析師必須是多面手,他不僅要具備統計技能(能熟練使用統計技術和統計工具進行分析挖掘)、資料倉庫知識(比如熟悉主流資料庫基本技術,可以自助取數,可以有效與資料倉庫團隊溝通)、資料挖掘技能(熟練掌握主流資料挖掘技術和工具),更重要的是他還要具有針對具體業務的了解能力和快速學習能力,并且要善于與業務方溝通、交流。資料分析挖掘絕不是資料分析師或團隊的閉門造車,要想讓項目成功應用,必須要自始至終與業務團隊并肩作戰,從這點來看,業務了解力和溝通交流能力的重要性甚至要遠遠超過技術層面的能力(諸如統計技能、挖掘技能、資料倉庫的技能)。從之前的分析可以看出,一名出色的資料分析師是需要時間、項目經驗去磨砺去鍛煉成長的,而作為企業來說,如何選擇、培養、配備這樣一支合格的分析師隊伍,才是資料化營運的基礎保障。
二是企業的資料化營運隻有在分析團隊與業務團隊協同配合下才可能做出成績,取得效果。分析團隊做出的分析方案、資料模型,必須要在業務應用中得到檢驗,這不僅要求業務方主觀的參與和支援,也要求業務方的團隊和員工同樣要具有相應的資料化營運能力和水準,營運團隊的人員需要具備哪些與資料化營運相關的技能呢?這個問題我們将在第4章闡述。
無論是資料分析團隊的專業能力,營運團隊的專業能力,還是其他業務團隊的專業能力,所展現的都是網際網路企業的人才價值,這個人才價值與資料的價值一樣,都是屬于網際網路行業的核心競争力,正如阿裡巴巴集團董事會主席兼ceo馬雲在多個場合強調的那樣,“人才和資料是阿裡巴巴集團最大的财富和最強大的核心競争力”。
1.4.4 企業決策層的倡導與持續支援
在關乎企業資料化營運的諸多必要條件裡,最核心且最具決定性的條件就是來自企業決策層的倡導和持續支援。
在傳統行業的現代企業裡,也有很多采用了先進的資料分析技術來支援企業營運的,支援企業的營銷、客服、産品開發等工作。但是總的來說,這些資料挖掘應用效果參差不齊,或者說應該展現的業務貢獻價值在很多情況下并沒有真正展現出來,總體的應用還是停留在項目管理的層面,缺乏全員的參與與真正跨部門的戰略協調配合。這種項目層面的管理,存在的不足如下:
首先,由于參與分析挖掘的團隊與提出分析需求的業務團隊分屬不同的職能部門,缺乏高層實質性的協調與管理,常會出現分析模組化工作與真正的業務需求配合不緊密,各打各的鑼,各唱各的歌。由于各部門和員工kpi考核的内容不同,資料分析團隊完成的分析方案、模型、建議、報告很多時候隻是紙上談兵,無法轉化成業務應用的實際操作。舉個簡單的例子,銷售部門的年度kpi考核是銷售額和付費人數,那麼為了這個年度kpi考核,銷售部門必然把工作的重心放在擴大銷售額,擴大付費人數,維護續費人數,降低流失率等關鍵名額上,他們自然希望資料分析部門圍繞年度(短期的)kpi目标提供分析和模型支援,提高銷售部門的業績和效率。但是資料分析部門的年度kpi考核可能跟年度銷售額和付費人數沒有關系,而跟通過資料分析、模組化,完善産品開發與優化,完善銷售部門的業務流程與資源配置等相關。很顯然,這裡資料分析團隊的kpi考核是着眼于企業長期發展的,這跟銷售部門短期的以銷售額為重點的考核在很大程度上是有沖突的。在這種情況下,怎麼指望兩者的資料化營運能落地開花呢?
其次,因為處于項目層面的管理,是以資料分析挖掘的規劃也就隻能局限在特定業務部門的範圍内,缺乏真正符合企業發展方向的資料分析挖掘規劃。俗話說得好站得高,方能看得遠,起點低,視野淺,自然限制了資料分析的有效發揮。
無論是組織架構的缺陷,還是戰略規劃的缺失,其本質都能表現出缺乏來自企業決策層的倡導和持續支援。隻有得到企業決策層的倡導和支援,上述組織管理方面的缺陷和戰略規劃的缺失才可以有效避免。如前所述,2012年7月10日阿裡巴巴集團宣布設定首席資料官的崗位,并将其作為企業的核心管理崗位之一,其目的就是進一步夯實企業的資料戰略,規劃和實施企業整體的資料化營運能力和水準,使之真正成為阿裡巴巴集團未來的核心競争力。
時代在發展,技術在進步,企業的資料化營運也在不斷增添新的内容、不斷響應新的需求。目前,從世界範圍來看,資料化營運至少在下列幾個方面已經出現了實質性的新發展,這些新發展擴大了資料化營運的應用場景、擴充了資料化營運的發展思路、也給目前(以及未來)資料化營運的參與者提供了更多的發展方向的選擇。這些新發展包括的内容如下:
資料産品作為商業智能的一個單獨的發展方向和專業領域,在國内外的商業智能和資料分析行業裡已經成為共識,并且正在企業的資料化營運實踐中發揮着越來越大的作用。資料産品是指通過資料分析和資料模型的應用而開發出來的,提供給使用者使用的一系列的幫助使用者更好了解和使用資料的工具産品,這些工具産品的使用讓使用者在某些特定場景或面對某些特定的資料時,可以獨立進行分析和展示結果,而不需要依賴資料分析師的幫助。雖然在多年以前,類似的資料産品已被開發并投入了應用,但是在資料分析行業世界範圍内達成共識,并作為商業智能的一個獨立發展方向和專業領域,還隻是近一兩年的事情。淘寶網上的賣家所使用的“量子恒道”就是一個非常不錯的資料産品,通過使用量子恒道,淘寶賣家可以自己随時監控店鋪的流量來源、買家逗留的時間、買家區域、浏覽時間、各頁面的流量大小、各産品的成交轉化率等一系列跟店鋪的實時基礎資料相關的資料分析和報告,進而有效幫助賣家制定和完善相應的經營方向和經驗政策。資料産品作為資料分析和商業智能裡一個專門的領域得以确立和發展,其實是跟資料化營運的全民參與的特征相輔相成的。資料産品幫助企業全員更好、更有效地利用資料,而資料化營運的全民參與也呼喚更多更好的資料産品,企業成功的資料化營運建設一定會同時産生一大批深受使用者歡迎和信賴的資料産品。
資料pd作為資料分析和商業智能的一個細分的職業崗位,已經在越來越多的大規模資料化營運的企業得以專門設立并日益強化。與上述的資料産品相配套的,就是資料pd作為一個專門的細分的職業崗位和專業方向,正逐漸為廣大的資料化營運的企業所熟悉并采用。pd(product designer)是産品設計師的英文縮寫,而資料pd,顧名思義就是資料産品的産品設計師。資料pd作為資料分析和商業智能中一個新的職業方向和職業崗位,需要從業者兼具資料分析師和産品設計師雙重的專業知識、專業背景、技能和素質,有志從事資料pd工作的新人,可以抓住這個嶄新的職業,幾乎還是一張白紙的無限空間,快速成長,迅速成才。
泛bi的概念在大規模資料化營運的企業裡正在越來越深入人心。泛bi其實就是逐漸淡化資料分析師團隊作為企業資料分析應用的唯一專業隊伍的印象,讓更多的業務部門也逐漸參與資料分析和資料探索,讓更多業務部門的員工也逐漸掌握資料分析的技能和意識。泛bi其實也是資料化營運的全民參與的特征所要求的,是更高一級的資料化營運的全民參與。在這個階段,業務部門的員工不僅要積極參與資料分析和模型的具體應用實踐,更要求他們能自主自發地進行一些力所能及的資料分析和資料探索。泛bi概念的逐漸深入普及,向資料分析師和資料分析團隊提出了新的要求,資料分析師和資料分析團隊承擔了向業務部門及其員工指導、傳授有關資料分析和資料探索的能力培養的工作,這是一種授人以漁的崇高行為,值得資料分析師為之奉獻。
2012年12月3日,阿裡巴巴集團在杭州宣布,截至2012年11月30日21:50,其旗下淘寶和天貓的交易額本年度突破10 000億元。為支撐這巨大規模業務量的直接與間接的就業人員已經超過1000萬人。
根據國家統計局的資料顯示,2011年全國各省社會消費品零售總額為18.39萬億元,10 000億元相當于其總量的5.4%,而根據國家統計局公布的2011年全國各省社會消費品零售總額排行,可以排列第5位,僅次于廣東、山東、江蘇和浙江。電子商務已經成為一個龐大的新經濟主體,并在未來相當長的時間裡依然會高速發展,這意味着過去的不可能已經成為現實,而這才是剛剛開始。
阿裡巴巴集團董事局主席馬雲表示:“我們很幸運,能夠适逢網際網路這個時代,一起見證并參與網際網路及電子商務給我們社會帶來的一次次驚喜和改變。10 000億隻是剛剛開始,我們正在步入10萬億的時代,未來電子商務在中國,必将産生1000萬個企業,具備服務全球10億消費者的能力。”
第2章
資料挖掘概述
資料挖掘是指從資料集合中自動抽取隐藏在資料中的那些有用資訊的非平凡過程,這些資訊的表現形式為規則、概念、規律及模式等。
2.1 資料挖掘的發展曆史
2.2 統計分析與資料挖掘的主要差別
2.3 資料挖掘的主要成熟技術以及在資料化營運中的主要應用
2.4 網際網路行業資料挖掘應用的特點
在第1章中介紹了什麼是資料化營運,為什麼要實作資料化營運,以及資料化營運的主要内容和必要條件。我們知道資料分析和資料挖掘技術是支撐企業資料化營運的基礎和技術保障,沒有有效的資料挖掘支援,企業的資料化營運就是無源之水,無本之木。
本章将為讀者簡單回顧一下資料挖掘作為一門學科的發展曆史,并具體探讨統計分析與資料挖掘的主要差別,同時,将力求用簡單、通俗、明了的文字把目前主流的、成熟的、在資料化營運中常用的統計分析和資料挖掘的算法、原理以及主要的應用場景做出總結和分類。
最後,針對網際網路資料化營運中資料挖掘應用的特點進行梳理和總結。
資料挖掘起始于20世紀下半葉,是在當時多個學科發展的基礎上發展起來的。随着資料庫技術的發展應用,資料的積累不斷膨脹,導緻簡單的查詢和統計已經無法滿足企業的商業需求,急需一些革命性的技術去挖掘資料背後的資訊。同時,這期間計算機領域的人工智能(artificial intelligence)也取得了巨大進展,進入了機器學習的階段。是以,人們将兩者結合起來,用資料庫管理系統存儲資料,用計算機分析資料,并且嘗試挖掘資料背後的資訊。這兩者的結合促生了一門新的學科,即資料庫中的知識發現(knowledge discovery in databases,kdd)。1989年8月召開的第11屆國際人工智能聯合會議的專題讨論會上首次出現了知識發現(kdd)這個術語,到目前為止,kdd的重點已經從發現方法轉向了實踐應用。
而資料挖掘(data mining)則是知識發現(kdd)的核心部分,它指的是從資料集合中自動抽取隐藏在資料中的那些有用資訊的非平凡過程,這些資訊的表現形式為:規則、概念、規律及模式等。進入21世紀,資料挖掘已經成為一門比較成熟的交叉學科,并且資料挖掘技術也伴随着資訊技術的發展日益成熟起來。
總體來說,資料挖掘融合了資料庫、人工智能、機器學習、統計學、高性能計算、模式識别、神經網絡、資料可視化、資訊檢索和空間資料分析等多個領域的理論和技術,是21世紀初期對人類産生重大影響的十大新興技術之一。
統計分析與資料挖掘有什麼差別呢?從實踐應用和商業實戰的角度來看,這個問題并沒有很大的意義,正如“不管白貓還是黑貓,抓住老鼠才是好貓”一樣,在企業的商業實戰中,資料分析師分析問題、解決問題時,首先考慮的是思路,其次才會對與思路比對的分析挖掘技術進行篩選,而不是先考慮到底是用統計技術還是用資料挖掘技術來解決這個問題。
從兩者的理論來源來看,它們在很多情況下都是同根同源的。比如,在屬于典型的資料挖掘技術的決策樹裡,cart、chaid等理論和方法都是基于統計理論所發展和延伸的;并且資料挖掘中的技術有相當比例是用統計學中的多變量分析來支撐的。
相對于傳統的統計分析技術,資料挖掘有如下一些特點:
資料挖掘特别擅長于處理大資料,尤其是幾十萬行、幾百萬行,甚至更多更大的資料。
資料挖掘在實踐應用中一般都會借助資料挖掘工具,而這些挖掘工具的使用,很多時候并不需要特别專業的統計背景作為必要條件。不過,需要強調的是基本的統計知識和技能是必需的。
在資訊化時代,資料分析應用的趨勢是從大型資料庫中抓取資料,并通過專業軟體進行分析,是以資料挖掘工具的應用更加符合企業實踐和實戰的需要。
從操作者來看,資料挖掘技術更多是企業的資料分析師、業務分析師在使用,而不是統計學家用于檢測。
更主流的觀點普遍認為,資料挖掘是統計分析技術的延伸和發展,如果一定要加以區分,它們又有哪些差別呢?資料挖掘在如下幾個方面與統計分析形成了比較明顯的差異:
統計分析的基礎之一就是機率論,在對資料進行統計分析時,分析人員常常需要對資料分布和變量間的關系做假設,确定用什麼機率函數來描述變量間的關系,以及如何檢驗參數的統計顯著性;但是,在資料挖掘的應用中,分析人員不需要對資料分布做任何假設,資料挖掘中的算法會自動尋找變量間的關系。是以,相對于海量、雜亂的資料,資料挖掘技術有明顯的應用優勢。
統計分析在預測中的應用常表現為一個或一組函數關系式,而資料挖掘在預測應用中的重點在于預測的結果,很多時候并不會從結果中産生明确的函數關系式,有時候甚至不知道到底是哪些變量在起作用,又是如何起作用的。最典型的例子就是“神經網絡”挖掘技術,它裡面的隐蔽層就是一個“黑箱”,沒有人能在所有的情況下讀懂裡面的非線性函數是如何對自變量進行組合的。在實踐應用中,這種情況常會讓習慣統計分析公式的分析師或者業務人員感到困惑,這也确實影響了模型在實踐應用中的可了解性和可接受度。不過,如果能換種思維方式,從實戰的角度考慮,隻要模型能正确預測客戶行為,能為精細化營運提供準确的細分人群和目标客戶,業務部門、營運部門不了解模型的技術細節,又有何不可呢?
在實踐應用中,統計分析常需要分析人員先做假設或判斷,然後利用資料分析技術來驗證該假設是否成立。但是,在資料挖掘中,分析人員并不需要對資料的内在關系做任何假設或判斷,而是會讓挖掘工具中的算法自動去尋找資料中隐藏的關系或規律。兩者的思維方式并不相同,這給資料挖掘帶來了更靈活、更寬廣的思路和舞台。
雖然上面詳細闡述了統計分析與資料挖掘的差別,但是在企業的實踐應用中,我們不應該硬性地把兩者割裂開來,也無法割裂,在實踐應用中,沒有哪個分析師會說,“我隻用資料挖掘技術來分析”,或者“我隻用統計分析技術來分析”。正确的思路和方法應該是:針對具體的業務分析需求,先确定分析思路,然後根據這個分析思路去挑選和比對合适的分析算法、分析技術,而且一個具體的分析需求一般都會有兩種以上不同的思路和算法可以去探索,最後可根據驗證的效果和資源比對等一系列因素進行綜合權衡,進而決定最終的思路、算法和解決方案。
鑒于實踐應用中,統計分析與資料挖掘技術并不能完全被割裂開來,并且本書側重于資料化營運的實踐分享。是以在後續各章節的讨論中,将不再人為地給一個算法、技術貼上“統計分析”或“資料挖掘”的标簽,後續各章節的技術分享和實戰應用舉例,都會本着針對不同的分析目的、項目類型來介紹主流的、有效的分析挖掘技術以及相應的特點和技巧。統計分析也罷,資料挖掘也好,隻要有價值,隻要在實戰中有效,都會是我們所關注的,都會是我們所要分析分享的。
2.3.1 決策樹
決策樹(decision tree)是一種非常成熟的、普遍采用的資料挖掘技術。之是以稱為樹,是因為其模組化過程類似一棵樹的成長過程,即從根部開始,到樹幹,到分枝,再到細枝末節的分叉,最終生長出一片片的樹葉。在決策樹裡,所分析的資料樣本先是內建為一個樹根,然後經過層層分枝,最終形成若幹個結點,每個結點代表一個結論。
決策樹算法之是以在資料分析挖掘應用中如此流行,主要原因在于決策樹的構造不需要任何領域的知識,很适合探索式的知識發掘,并且可以處理高次元的資料。在衆多的資料挖掘、統計分析算法中,決策樹最大的優點在于它所産生的一系列從樹根到樹枝(或樹葉)的規則,可以很容易地被分析師和業務人員了解,而且這些典型的規則甚至不用整理(或稍加整理),就是現成的可以應用的業務優化政策和業務優化路徑。另外,決策樹技術對資料的分布甚至缺失非常寬容,不容易受到極值的影響。
目前,最常用的3種決策樹算法分别是chaid、cart和id3(包括後來的c4.5,乃至c5.0)。
chaid( chi-square automatic interaction detector)算法的曆史較長,中文簡稱為卡方自動互相關系檢測。chaid依據局部最優原則,利用卡方檢驗來選擇對因變量最有影響的自變量,chaid應用的前提是因變量為類别型變量(category)。
cart( classification and regression tree)算法産生于20世紀80年代中期,中文簡稱為分類與回歸樹,cart的分割邏輯與chaid相同,每一層的劃分都是基于對所有自變量的檢驗和選擇上的。但是,cart采用的檢驗标準不是卡方檢驗,而是基尼系數(gini)等不純度的名額。兩者最大的差別在于chaid采用的是局部最優原則,即結點之間互不相幹,一個結點确定了之後,下面的生長過程完全在結點内進行。而cart則着眼于總體優化,即先讓樹盡可能地生長,然後再回過頭來對樹進行修剪(prune),這一點非常類似統計分析中回歸算法裡的反向選擇(backward selection)。cart所生産的決策樹是二分的,每個結點隻能分出兩枝,并且在樹的生長過程中,同一個自變量可以反複使用多次(分割),這些都是不同于chaid的特點。另外,如果是自變量存在資料缺失(missing)的情況,cart的處理方式将會是尋找一個替代資料來代替(填充)缺失值,而chaid則是把缺失數值作為單獨的一類數值。
id3(iterative dichotomiser)算法與cart是同一時期産生的,中文簡稱為疊代的二分器,其最大的特點在于自變量的挑選标準是:基于資訊增益的度量選擇具有最高資訊增益的屬性作為結點的分裂(分割)屬性,其結果就是對分割後的結點進行分類所需的資訊量最小,這也是一種劃分純度的思想。至于之後發展起來的c4.5可以了解為id3的發展版(後繼版),兩者的主要差別在于c4.5采用資訊增益率(gain ratio)代替了id3中的資訊增益度量,如此替換的主要原因是資訊增益度量有個缺點,就是傾向于選擇具有大量值的屬性。這裡給個極端的例子,對于member_id 的劃分,每個id都是一個最純的組,但是這樣的劃分沒有任何實際意義。而c4.5 所采用的資訊增益率就可以較好地克服這個缺點,它在資訊增益的基礎上,增加了一個分裂資訊(splitinformation)對其進行規範化限制。
決策樹技術在資料化營運中的主要用途展現在:作為分類、預測問題的典型支援技術,它在使用者劃分、行為預測、規則梳理等方面具有廣泛的應用前景,決策樹甚至可以作為其他模組化技術前期進行變量篩選的一種方法,即通過決策樹的分割來篩選有效地輸入自變量。
關于決策樹的詳細介紹和實踐中的注意事項,可參考本書10.2節。
2.3.2 神經網絡
神經網絡(neural network)是通過數學算法來模仿人腦思維的,它是資料挖掘中機器學習的典型代表。神經網絡是人腦的抽象計算模型,我們知道人腦中有數以百億個神經元(人腦處理資訊的微單元),這些神經元之間互相連接配接,使得人的大腦産生精密的邏輯思維。而資料挖掘中的“神經網絡”也是由大量并行分布的人工神經元(微處理單元)組成的,它有通過調整連接配接強度從經驗知識中進行學習的能力,并可以将這些知識進行應用。
簡單來講,“神經網絡”就是通過輸入多個非線性模型以及不同模型之間的權重互聯(權重的過程在隐蔽層完成),最終得到一個輸出模型。其中,隐蔽層所包含的就是非線性函數。
目前最主流的“神經網絡”算法是回報傳播(backpropagation),該算法在多層前向型(multilayer feed-forward)神經網絡上進行學習,而多層前向型神經網絡又是由一個輸入層、一個或多個隐蔽層以及一個輸出層組成的,“神經網絡”的典型結構如圖2-1所示。
圖2-1 “神經網絡”的典型結構圖
由于“神經網絡”擁有特有的大規模并行結構和資訊的并行處理等特點,是以它具有良好的自适應性、自組織性和高容錯性,并且具有較強的學習、記憶和識别功能。目前神經網絡已經在信号處理、模式識别、專家系統、預測系統等衆多領域中得到廣泛的應用。
“神經網絡”的主要缺點就是其知識和結果的不可解釋性,沒有人知道隐蔽層裡的非線性函數到底是如何處理自變量的,“神經網絡”應用中的産出物在很多時候讓人看不清其中的邏輯關系。但是,它的這個缺點并沒有影響該技術在資料化營運中的廣泛應用,甚至可以這樣認為,正是因為其結果具有不可解釋性,反而更有可能促使我們發現新的沒有認識到的規律和關系。
在利用“神經網絡”技術模組化的過程中,有以下5個因素對模型結果有着重大影響:
層數。
每層中輸入變量的數量。
聯系的種類。
聯系的程度。
轉換函數,又稱激活函數或擠壓函數。
關于這5個因素的詳細說明,請參考本書10.1.1節。
“神經網絡”技術在資料化營運中的主要用途展現在:作為分類、預測問題的重要技術支援,在使用者劃分、行為預測、營銷響應等諸多方面具有廣泛的應用前景。
關于神經網絡的詳細介紹和實踐中的注意事項,可參考本書10.1節。
2.3.3 回歸
回歸(regression)分析包括線性回歸(linear regression),這裡主要是指多元線性回歸和邏輯斯蒂回歸(logistic regression)。其中,在資料化營運中更多使用的是邏輯斯蒂回歸,它又包括響應預測、分類劃分等内容。
多元線性回歸主要描述一個因變量如何随着一批自變量的變化而變化,其回歸公式(回歸方程)就是因變量與自變量關系的資料反映。因變量的變化包括兩部分:系統性變化與随機變化,其中,系統性變化是由自變量引起的(自變量可以解釋的),随機變化是不能由自變量解釋的,通常也稱作殘值。
在用來估算多元線性回歸方程中自變量系數的方法中,最常用的是最小二乘法,即找出一組對應自變量的相應參數,以使因變量的實際觀測值與回歸方程的預測值之間的總方差減到最小。
對多元線性回歸方程的參數估計,是基于下列假設的:
輸入變量是确定的變量,不是随機變量,而且輸入的變量間無線性相關,即無共線性。
随機誤差的期望值總和為零,即随機誤差與自變量不相關。
随機誤差呈現正态分布。
如果不滿足上述假設,就不能用最小二乘法進行回歸系數的估算了。
邏輯斯蒂回歸(logistic regression)相比于線性回歸來說,在資料化營運中有更主流更頻繁的應用,主要是因為該分析技術可以很好地回答諸如預測、分類等資料化營運常見的分析項目主題。簡單來講,凡是預測“兩選一”事件的可能性(比如,“響應”還是“不響應”;“買”還是“不買”;“流失”還是“不流失”),都可以采用邏輯斯蒂回歸方程。
邏輯斯蒂回歸預測的因變量是介于0和1之間的機率,如果對這個機率進行換算,就可以用線性公式描述因變量與自變量的關系了,具體公式如下:
=0+1x1+2x2+…+kxk
與多元線性回歸所采用的最小二乘法的參數估計方法相對應,最大似然法是邏輯斯蒂回歸所采用的參數估計方法,其原理是找到這樣一個參數,可以讓樣本資料所包含的觀察值被觀察到的可能性最大。這種尋找最大可能性的方法需要反複計算,對計算能力有很高的要求。最大似然法的優點是在大樣本資料中參數的估值穩定、偏差小,估值方差小。
關于線性回歸和邏輯回歸的詳細介紹和在實踐應用中的注意事項,可參考本書10.3節和10.4節。
2.3.4 關聯規則
關聯規則(association rule)是在資料庫和資料挖掘領域中被發明并被廣泛研究的一種重要模型,關聯規則資料挖掘的主要目的是找出資料集中的頻繁模式(frequent pattern),即多次重複出現的模式和并發關系(cooccurrence relationships),即同時出現的關系,頻繁和并發關系也稱作關聯(association)。
應用關聯規則最經典的案例就是購物籃分析(basket analysis),通過分析顧客購物籃中商品之間的關聯,可以挖掘顧客的購物習慣,進而幫助零售商更好地制定有針對性的營銷政策。
以下列舉一個簡單的關聯規則的例子:
嬰兒尿不濕→啤酒[支援度=10%, 置信度=70%]
這個規則表明,在所有顧客中,有10%的顧客同時購買了嬰兒尿不濕和啤酒,而在所有購買了嬰兒尿不濕的顧客中,占70%的人同時還購買了啤酒。發現這個關聯規則後,超市零售商決定把嬰兒尿不濕和啤酒擺放在一起進行促銷,結果明顯提升了銷售額,這就是發生在沃爾瑪超市中“啤酒和尿不濕”的經典營銷案例。
上面的案例是否讓你對支援度和置信度有了一定的了解?事實上,支援度(support)和置信度(confidence)是衡量關聯規則強度的兩個重要名額,它們分别反映着所發現規則的有用性和确定性。其中支援度:規則x→y的支援度是指事物全集中包含x∪y的事物百分比。支援度主要衡量規則的有用性,如果支援度太小,則說明相應規則隻是偶發事件。在商業實戰中,偶發事件很可能沒有商業價值;置信度:規則x→y的置信度是指既包含了x又包含了y的事物數量占所有包含了x的事物數量的百分比。置信度主要衡量規則的确定性(可預測性),如果置信度太低,那麼從x就很難可靠地推斷出y來,置信度太低的規則在實踐應用中也沒有太大用處。
在衆多的關聯規則資料挖掘算法中,最著名的就是apriori算法,該算法具體分為以下兩步進行:
(1)生成所有的頻繁項目集。一個頻繁項目集(frequent itemset)是一個支援度高于最小支援度閥值(min-sup)的項目集。
(2)從頻繁項目集中生成所有的可信關聯規則。這裡可信關聯規則是指置信度大于最小置信度閥值(min-conf)的規則。
關聯規則算法不但在數值型資料集的分析中有很大用途,而且在純文字文檔和網頁檔案中,也有着重要用途。比如發現單詞間的并發關系以及web的使用模式等,這些都是web資料挖掘、搜尋及推薦的基礎。
2.3.5 聚類
聚類(clustering)分析有一個通俗的解釋和比喻,那就是“物以類聚,人以群分”。針對幾個特定的業務名額,可以将觀察對象的群體按照相似性和相異性進行不同群組的劃分。經過劃分後,每個群組内部各對象間的相似度會很高,而在不同群組之間的對象彼此間将具有很高的相異度。
聚類分析的算法可以分為劃分的方法(partitioning method)、層次的方法(hierarchical method)、基于密度的方法(density-based method)、基于網格的方法(grid-based method)、基于模型的方法(model-based method)等,其中,前面兩種方法最為常用。
對于劃分的方法(partitioning method),當給定m個對象的資料集,以及希望生成的細分群體數量k後,即可采用這種方法将這些對象分成k組(k≤m),使得每個組内對象是相似的,而組間的對象是相異的。最常用的劃分方法是k-means方法,其具體原理是:首先,随機選擇k個對象,并且所選擇的每個對象都代表一個組的初始均值或初始的組中心值;對剩餘的每個對象,根據其與各個組初始均值的距離,将它們配置設定給最近的(最相似)小組;然後,重新計算每個小組新的均值;這個過程不斷重複,直到所有的對象在k組分布中都找到離自己最近的組。
層次的方法(hierarchical method)則是指依次讓最相似的資料對象兩兩合并,這樣不斷地合并,最後就形成了一棵聚類樹。
聚類技術在資料分析和資料化營運中的主要用途表現在:既可以直接作為模型對觀察對象進行群體劃分,為業務方的精細化營運提供具體的細分依據和相應的營運方案建議,又可在資料處理階段用作資料探索的工具,包括發現離群點、孤立點,資料降維的手段和方法,通過聚類發現資料間的深層次的關系等。
關于聚類技術的詳細介紹和應用實踐中的注意事項,可參考本書第9章。
2.3.6 貝葉斯分類方法
貝葉斯分類方法(bayesian classifier)是非常成熟的統計學分類方法,它主要用來預測類成員間關系的可能性。比如通過一個給定觀察值的相關屬性來判斷其屬于一個特定類别的機率。貝葉斯分類方法是基于貝葉斯定理的,已經有研究表明,樸素貝葉斯分類方法作為一種簡單貝葉斯分類算法甚至可以跟決策樹和神經網絡算法相媲美。
貝葉斯定理的公式如下:
其中,x表示n個屬性的測量描述; h為某種假設,比如假設某觀察值x屬于某個特定的類别c;對于分類問題,希望确定p(h|x),即能通過給定的x的測量描述,來得到h成立的機率,也就是給出x的屬性值,計算出該觀察值屬于類别c的機率。因為p(h|x)是後驗機率(posterior probability),是以又稱其為在條件x下,h的後驗機率。
舉例來說,假設資料屬性僅限于用教育背景和收入來描述顧客,而x是一位碩士學曆,收入10萬元的顧客。假定h表示假設我們的顧客将購買蘋果手機,則p(h|x)表示當我們知道顧客的教育背景和收入情況後,該顧客将購買蘋果手機的機率;相反,p(x|h)則表示如果已知顧客購買蘋果手機,則該顧客是碩士學曆并且收入10萬元的機率;而p(x)則是x的先驗機率,表示顧客中的某個人屬于碩士學曆且收入10萬元的機率;p(h)也是先驗機率,隻不過是任意給定顧客将購買蘋果手機的機率,而不會去管他們的教育背景和收入情況。
從上面的介紹可見,相比于先驗機率p(h),後驗機率p(h|x)基于了更多的資訊(比如顧客的資訊屬性),而p(h)是獨立于x的。
貝葉斯定理是樸素貝葉斯分類法(naive bayesian classifier)的基礎,如果給定資料集裡有m個分類類别,通過樸素貝葉斯分類法,可以預測給定觀察值是否屬于具有最高後驗機率的特定類别,也就是說,樸素貝葉斯分類方法預測x屬于類别ci時,表示當且僅當
p(ci | x)>p(cj | x) 1≤j≤m,ji
此時如果最大化p(ci|x),其p(ci|x)最大的類ci被稱為最大後驗假設,根據貝葉斯定理
可知,由于p(x)對于所有的類别是均等的,是以隻需要p(x|ci)p(ci)取最大即可。
為了預測一個未知樣本x的類别,可對每個類别ci估算相應的p(x|ci)p(ci)。樣本x歸屬于類别ci,當且僅當
貝葉斯分類方法在資料化營運實踐中主要用于分類問題的歸類等應用場景。
2.3.7 支援向量機
支援向量機(support vector machine)是vapnik等人于1995年率先提出的,是近年來機器學習研究的一個重大成果。與傳統的神經網絡技術相比,支援向量機不僅結構簡單,而且各項技術的性能也明顯提升,是以它成為當今機器學習領域的熱點之一。
作為一種新的分類方法,支援向量機以結構風險最小為原則。線上性的情況下,就在原空間尋找兩類樣本的最優分類超平面。在非線性的情況下,它使用一種非線性的映射,将原訓練集資料映射到較高的維上。在新的維上,它搜尋線性最佳分離超平面。使用一個适當的對足夠高維的非線性映射,兩類資料總可以被超平面分開。
支援向量機的基本概念如下:
設給定的訓練樣本集為{(x1, y1), (x2, y2), …, (xn, yn)},其中xi 蜶n, y蝱-1,1}。
再假設該訓練集可被一個超平面線性劃分,設該超平面記為(w, x)+b=0。
支援向量機的基本思想可用圖2-2的兩維情況舉例說明。
圖中圓形和方形代表兩類樣本,h為分類線,h1、h2,分别為過各類樣本中離分類線最近的樣本并且平行于分類線的直線,它們之間的距離叫做分類間隔(margin)。所謂的最優分類線就是要求分類線不但能将兩類正确分開(訓練錯誤為0),而且能使分類間隔最大。推廣到高維空間,最優分類線就成了最優分類面。
其中,距離超平面最近的一類向量被稱為支援向量(support vector),一組支援向量可以唯一地确定一個超平面。通過學習算法,svm可以自動尋找出那些對分類有較好區分能力的支援向量,由此構造出的分類器則可以最大化類與類的間隔,因而有較好的适應能力和較高的分類準确率。
圖2-2 線性可分情況下的最優分類線
支援向量機的缺點是訓練資料較大,但是,它的優點也是很明顯的—對于複雜的非線性的決策邊界的模組化能力高度準确,并且也不太容易過拟合。
支援向量機主要用在預測、分類這樣的實際分析需求場景中。
2.3.8 主成分分析
嚴格意義上講,主成分分析(principal components analysis)屬于傳統的統計分析技術範疇,但是正如本章前面所闡述的,統計分析與資料挖掘并沒有嚴格的分割,是以在資料挖掘實戰應用中也常常會用到這種方式,從這個角度講,主成分分析也是資料挖掘商業實戰中常用的一種分析技術和資料處理技術。
主成分分析會通過線性組合将多個原始變量合并成若幹個主成分,這樣每個主成分都變成了原始變量的線性組合。這種轉變的目的,一方面是可以大幅降低原始資料的次元,同時也在此過程中發現原始資料屬性之間的關系。
主成分分析的主要步驟如下:
1)通常要先進行各變量的标準化工作,标準化的目的是将資料按照比例進行縮放,使之落入一個小的區間範圍之内,進而讓不同的變量經過标準化處理後可以有平等的分析和比較基礎。關于資料标準化的詳細介紹,可參考本書8.5.4節和9.3.2節。
2)選擇協方差陣或者相關陣計算特征根及對應的特征向量。
3)計算方差貢獻率,并根據方差貢獻率的閥值選取合适的主成分個數。
4)根據主成分載荷的大小對選擇的主成分進行命名。
5)根據主成分載荷計算各個主成分的得分。
将主成分進行推廣和延伸即成為因子分析(factor analysis),因子分析在綜合原始變量資訊的基礎上将會力圖構築若幹個意義較為明确的公因子;也就是說,采用少數幾個因子描述多個名額之間的聯系,将比較密切的變量歸為同一類中,每類變量即是一個因子。之是以稱其為因子,是因為它們實際上是不可測量的,隻能解釋。
主成分分析是因子分析的一個特例,兩者的差別和聯系主要表現在以下方面:
主成分分析會把主成分表示成各個原始變量的線性組合,而因子分析則把原始變量表示成各個因子的線性組合。這個差別最直覺也最容易記住。
主成分分析的重點在于解釋原始變量的總方差,而因子分析的重點在于解釋原始變量的協方差。
在主成分分析中,有幾個原始變量就有幾個主成分,而在因子分析中,因子個數可以根據業務場景的需要人為指定,并且指定的因子數量不同,則分析結果也會有差異。
在主成分分析中,給定的協方差矩陣或者相關矩陣的特征值是唯一時,主成分也是唯一的,但是在因子分析中,因子不是唯一的,并且通過旋轉可以得到不同的因子。
主成分分析和因子分析在資料化營運實踐中主要用于資料處理、降維、變量間關系的探索等方面,同時作為統計學裡的基本而重要的分析工具和分析方法,它們在一些專題分析中也有着廣泛的應用。
2.3.9 假設檢驗
假設檢驗(hypothesis test)是現代統計學的基礎和核心之一,其主要研究在一定的條件下,總體是否具備某些特定特征。
假設檢驗的基本原理就是小機率事件原理,即觀測小機率事件在假設成立的情況下是否發生。如果在一次試驗中,小機率事件發生了,那麼說明假設在一定的顯著性水準下不可靠或者不成立;如果在一次試驗中,小機率事件沒有發生,那麼也隻能說明沒有足夠理由相信假設是錯誤的,但是也并不能說明假設是正确的,因為無法收集到所有的證據來證明假設是正确的。
假設檢驗的結論是在一定的顯著性水準下得出的。是以,當采用此方法觀測事件并下結論時,有可能會犯錯,這些錯誤主要有兩大類:
第Ⅰ類錯誤:當原假設為真時,卻否定它而犯的錯誤,即拒絕正确假設的錯誤,也叫棄真錯誤。犯第Ⅰ類錯誤的機率記為,通常也叫錯誤,=1-置信度。
第Ⅱ類錯誤:當原假設為假時,卻肯定它而犯的錯誤,即接受錯誤假設的錯誤,也叫納僞錯誤。犯第Ⅱ類錯誤的機率記為,通常也叫錯誤。
上述這兩類錯誤在其他條件不變的情況下是相反的,即增大時,就減小;減小時,就增大。錯誤容易受資料分析人員的控制,是以在假設檢驗中,通常會先控制第Ⅰ類錯誤發生的機率,具體表現為:在做假設檢驗之前先指定一個的具體數值,通常取0.05,也可以取0.1或0.001。
在資料化營運的商業實踐中,假設檢驗最常用的場景就是用于“營運效果的評估”上,本書第12章将針對最常見、最基本的假設檢驗形式和技術做出比較詳細的梳理和舉例。
相對于傳統行業而言,網際網路行業的資料挖掘和資料化營運有如下的一些主要特點:
資料的海量性。網際網路行業相比傳統行業第一個差別就是收集、存儲的資料是海量的,這一方面是因為網際網路的使用已經成為普通人日常生活和工作中不可或缺的一部分,另一方面更是因為使用者網絡行為的每一步都會被作為網絡日志記錄下來。海量的資料、海量的字段、海量的資訊,尤其是海量的字段,使得分析之前對于分析字段的挑選和排查工作顯得無比重要,無以複加。如何大浪淘沙挑選變量則為重中之重,對此很難一言以蔽之的進行總結,還是用三分技術,七分業務來了解吧。本書從第7~12章,幾乎每章都用大量的篇幅讨論如何在具體的分析課題和項目中選擇變量、評估變量、轉換變量,乃至如何通過清洗後的核心變量完成最終的分析結論(挖掘模型)。
資料分析(挖掘)的周期短。鑒于網際網路行業白熱化的市場競争格局,以及該行業相對成熟的進階資料化營運實踐,該行業的資料分析(挖掘)通常允許的分析周期(項目周期)要明顯短于傳統行業。行業技術應用飛速發展,産品和競争一日千裡,都使該行業的資料挖掘項目的時間進度比傳統行業的項目模式快得多。一方面要保證挖掘結果的起碼品質,另一方面要滿足這個行業超快的行業節奏,這也使得傳統的挖掘分析思路和步調必須改革和升華,進而具有鮮明的internet色彩。
資料分析(挖掘)成果的時效性明顯變短。由于網際網路行業的使用者行為相對于傳統行業而言變化非常快,導緻相應的資料分析挖掘成果的時效性也比傳統行業明顯縮短。舉例來說,網際網路行業的産品更新換代很多是以月為機關的,新産品層出不窮,老産品要及時下線,是以,針對具體産品的資料分析(挖掘)成果的時效性也明顯變短;或者說,使用者行為變化快,網絡環境變化快,導緻模型的維護和優化的時間周期也明顯變短,傳統行業裡的“使用者流失預測模型”可能隻需要每年更新優化一次,但是在網際網路行業裡類似的模型可能3個月左右就有必要更新優化了。
網際網路行業新技術、新應用、新模式的更新換代相比于傳統行業而言更加迅速、周期更短、更加具有颠覆性,相應地對資料分析挖掘的應用需求也更為苛刻,且要多樣化。以中國網際網路行業的發展為例,作為第一代網際網路企業的代表,新浪、搜狐、雅虎等門戶網站的web 1.0模式(傳統媒體的電子化)從産生到被以google、百度等搜尋引擎企業的web 2.0模式(制造者與使用者的合一)所超越,前後不過10年左右的時間,而目前這個web 2.0模式已經逐漸有被以微網誌為代表web 3.0模式(sns模式)超越的趨勢。具體到資料分析所服務的網際網路業務和應用來說,從最初的正常、主流的分析挖掘支援,到以微網誌應用為代表的新的分析需求,再到目前風頭正健的移動網際網路的資料分析和應用,網際網路行業的資料分析大顯身手的天地在不斷擴大,新的應用源源不斷,新的挑戰讓人們應接不暇,這一切都要求資料分析師自覺、主動去學習、去充實、去提升自己、去跟上網際網路發展的腳步。
第3章
資料化營運中常見的資料分析項目類型
千舉萬變,其道一也。
—《荀子·儒效》
3.1 目标客戶的特征分析
3.2 目标客戶的預測(響應、分類)模型
3.3 營運群體的活躍度定義
3.4 使用者路徑分析
3.5 交叉銷售模型
3.6 資訊品質模型
3.7 服務保障模型
3.8 使用者(買家、賣家)分層模型
3.9 賣家(買家)交易模型
3.10 信用風險模型
3.11 商品推薦模型
3.12 資料産品
3.13 決策支援
資料化營運中的資料分析項目類型比較多,涉及不同的業務場景、業務目的和分析技術。在本章中,按照業務用途的不同将其做了一個大概的分類,并針對每一類項目的特點和具體采用的分析挖掘技術進行了詳細的說明和舉例示範。
一個成功的資料分析挖掘項目,首先要有準确的業務需求描述,之後則要求項目相關人員自始至終對業務有正确的了解和判斷,是以對于本章所分享的所有分析項目類型以及對應的分析挖掘技術,讀者隻有在深刻了解和掌握相應業務背景的基礎上才可以真正了解項目類型的特點、目的,以及相應的分析挖掘技術合适與否。
對業務的了解和思考,永遠高于項目的分類和分析技術的選擇。
目标客戶的特征分析幾乎是資料化營運企業實踐中最普遍、頻率最高的業務分析需求之一,原因在于資料化營運的第一步(最基礎的步驟)就是要找準你的目标客戶、目标閱聽人,然後才是相應的營運方案、個性化的産品與服務等。是不加差別的普遍營運還是有目标有重點的精細化營運,這是傳統的粗放模式與精細的資料化營運最直接、最顯性的差別。
在目标客戶的典型特征分析中,業務場景可以是試營運之前的虛拟特征探索,也可以是試營運之後來自真實營運資料基礎上的分析、挖掘與提煉,兩者目标一緻,隻是思路不同、資料來源不同而已。另外,分析技術也有一定的差異。
對于試營運之前的虛拟特征探索,是指目标客戶在真實的業務環境裡還沒有産生,并沒有一個與真實業務環境一緻的資料來源可以用于分析目标客戶的特點,是以隻能通過簡化、類比、假設等手段,來尋找一個與真實業務環境近似的資料來源,進而進行模拟、探索,并從中發現一些似乎可以借鑒和參考的目标使用者特征,然後把這些特征放到真實的業務環境中去試營運。之後根據真實的效果回報資料,修正我們的目标使用者特征。一個典型的業務場景舉例就是a公司推出了一個線上轉賬産品,使用者通過該産品線上轉賬時産生的交易費用相比于普通的網銀要便宜些。在正式上線該轉賬産品之前,産品營運團隊需要一個初步的目标客戶特征報告。很明顯,在這個時刻,産品還沒有上線,是無法擁有真實使用該産品的使用者的,自然也沒有相應資料的積累,那這個時候所做的目标客戶特征分析隻能是按照産品設計的初衷、産品定位,以及營運團隊心中理想化的猜測,從企業曆史資料中模拟、近似地整理出前期期望中的目标客戶典型特征,很明顯這裡的資料并非來自該産品正式上線後的實際使用者資料(還沒有這些真實的資料産生),是以這類場景的分析隻能是虛拟的特征分析。具體來說,本項目先要從企業曆史資料中尋找有線上交易曆史的買賣雙方,線上行為活躍的使用者,以及相應的一些網站行為、捆綁了某知名的第三方支付工具的使用者等,然後根據這些行為字段和模拟的人群,去分析我們期望的目标客戶特征,在通過曆史資料倉庫的對比後,準确掌握該目标群體的規模和層次,進而送出營運業務團隊正式營運。
對于試營運之後的來自真實營運資料基礎上的使用者特征分析,相對而言,就比上述的模拟資料分析來得更真實更可行,也更貼近業務實際。在該業務場景下,資料的提取完全符合業務需求,且收集到的使用者也是真實使用了該産品的使用者,基于這些真實使用者的分析就不是虛拟的猜測和模拟了,而是有根有據的鐵的事實。在企業的資料化營運實踐中,這後一種場景更加普遍,也更加可靠。
對于上面提到的案例,在經過一段時間的試營運之後,企業積累了一定數量使用該産品的使用者資料。現在産品營運團隊需要基于該批實際的使用者資料,整理分析出該産品的核心目标使用者特征分析報告,以供後期營運團隊、産品開發團隊、服務團隊更有針對性、更有效地進行營運和服務。在這種基于真實的業務場景資料基礎上的客戶特征分析,有很多分析技術可以采用(本書第11章将針對“使用者特征分析”進行專題介紹,分享其中最主要的一些分析技術),但是其中采用預測模型的思路是該場景與上述“虛拟場景”資料分析的一個不同,上述“虛拟場景”資料分析一般來說是無法進行預測模型思路的探索的。
關于目标客戶特征分析的具體技術、思路、執行個體分享,可參考本書第11章。
這裡的預測(響應、分類)模型包括流失預警模型、付費預測模型、續費預測模型、營運活動響應模型等。
預測(響應、分類)模型是資料挖掘中最常用的一種模型類型,幾乎成了資料挖掘技術應用的一個主要代名詞。很多書籍介紹到資料挖掘的技術和應用,首先都會列舉預測(響應、分類)模型,主要的原因可能是響應模型的核心就是響應機率,而響應機率其實就是我們在第1章中介紹的資料化營運六要素裡的核心要素—機率(probability),資料化營運6要素的核心是以資料分析挖掘支撐的目标響應機率(probability),在此基礎上圍繞産品功能優化、目标使用者細分、活動(文案)創意、管道優化、成本的調整等重要環節、要素,共同達成資料化營運的持續完善、成功。
預測(響應、分類)模型基于真實業務場景産生的資料而進行的預測(響應、分類)模型搭建,其中涉及的主要資料挖掘技術包括邏輯回歸、決策樹、神經網絡、支援向量機等。有沒有一個算法總是優先于其他算法呢?答案是否定的,沒有哪個算法在任何場景下都總能最優勝任響應模型的搭建,是以在通常的模組化過程中,資料分析師都會嘗試多種不同的算法,然後根據随後的驗證效果以及具體業務項目的資源和價值進行權衡,并做出最終的選擇。
根據模組化資料中實際響應比例的大小進行分類,響應模型還可以細分為普通響應模型和稀有事件響應模型,一般來講,如果響應比例低于1%,則應當作為稀有事件響應模型來進行處理,其中的核心就是抽樣,通過抽樣技術人為放大分析資料樣本裡響應事件的比例,增加響應事件的濃度,進而在模組化過程中更好地捕捉、拟合其中自變量與因變量的關系。
預測(響應、分類)模型除了可以有效預測個體響應的機率之外,模型本身顯示出的重要輸入變量與目标變量的關系也有重要的業務價值,比如說可以轉化成伴随(甚至導緻)發生響應(生成事件)的關聯因素、重要因素的提煉。而很多時候,這種重要因素的提煉,是可以作為資料化營運中的新規則、新啟發,甚至是營運的“新抓手”的。誠然,從嚴格的統計學角度來看,預測響應模型中的輸入變量與目标變量之間的重要關系并不一定是因果關系,嚴格意義上的因果關系還需要後期進行深入的分析和實驗;即便如此,這種輸入變量與目标變量之間的重要關系也常常會對資料化營運具有重要的參考和啟發價值。
比如說,我們通過對線上交易的賣家進行深入分析挖掘,建立了預測響應模型,進而根據一系列特定行為和屬性的組合,來判斷在特定時間段内發生線上交易的可能性。這個響應模型除了生成每個member_id在特定時間段發生線上交易的可能性之外,從模型中提煉出來的一些重要輸入變量與目标變量(是否發生線上交易),以及它們之間的關系(包括正向或負向關系,重要性的強弱等)對資料化營運也有着很重要的參考和啟發。在本案例中,我們發現輸入變量近30天店鋪曝光量、店鋪裝修打分超過25分等與是否線上交易有着最大的正相關。根據這些發現和規則整理,盡管不能肯定這些輸入變量與是否線上交易有因果關系,但這些正向的強烈的關聯性也足以為提升線上交易的資料化營運提供重要的啟發和抓手。我們有一定的理由相信,如果賣家提升店鋪的曝光量,如果賣家把自己的店鋪裝修得更好,促進賣家線上成交的可能性會加大。
營運群體(目标群體)的活躍度定義,這也是資料化營運基本的普遍的要求。資料化營運與傳統的粗放型營運最主要的差別(核心)就是前者是可以準确地用資料衡量,而且這種衡量是自始至終地貫穿于資料化營運的全過程;而在營運全過程的衡量監控中,活躍度作為一個綜合的判斷名額,又在資料化營運實踐中有着廣泛的應用和曝光。活躍度的定義沒有統一的描述,一般都是根據特定的業務場景和營運需求來量身訂做的。但是,縱觀無數場景中的活躍度定義,可以發現其中是有一些固定的骨架作為基礎和核心的。其中最重要、最常見的兩個基本點如下。
1)活躍度的組成名額應該是該業務場景中最核心的行為因素。
2)衡量活躍度的定義合适與否的重要判斷依據是其能否有效回答業務需求的終極目标。
下面我們用具體的案例來解釋上述兩個基本點。
案例:pm産品是一款線上的saas産品,其用途在于協助賣家實時捕捉買家通路店鋪的情況,并且通過該pm産品可以實作跟買家對話、交換聯系方式等功能。作為pm産品的營運方,其營運政策是向所有平台的賣家免費提供pm産品的基本功能(每天隻能聯系一位到訪的買家,也即限制了聯系多位到訪買家的功能)、向部分優質賣家提供一定期限内免費的pm産品全功能(這部分優質賣家免費獲贈pm産品,可以享受跟付費一樣的全功能)、向目标賣家線上售賣pm産品。
經過一段時間的營運,現在管理層需要資料分析團隊定義一個合理的“pm産品使用者活躍度”,使得滿足一定活躍度分值的使用者能比較容易轉化成為pm産品的付費使用者,同時這個合适的定義還可以幫助有效監控每天pm産品的營運效果和效率。
根據上面的案例背景描述,以及之前的活躍度定義的兩個基本點來看,在本案例中,該業務場景中最核心的行為因素就是賣家使用該pm産品與到訪買家的洽談動作(表現形式為洽談的次數)、線上登入該pm産品的登入次數等。而該分析需求的終極目的就是促成付費使用者的轉化,是以項目最終活躍度的定義是否合适,是否滿足業務需求,一個最重要的評估依據就是按照該活躍度定義出來的活躍使用者群體裡,可以覆寫多少實際的pm産品付費使用者。從理論上來說,覆寫率越高越好,如果覆寫率不高,比如,實際付費使用者群體裡隻有50%包含在活躍度定義的活躍群體裡,那麼這個活躍度的定義是不能滿足當初的業務需求的,也就是說這是一個不成功的定義。
活躍度的定義所涉及的統計技術主要有兩個,一個是主成分分析,另一個是資料的标準化。其中,主成分分析的目的,就是把多個核心行為名額轉化為一個或少數幾個主成分,并最終轉化成一個綜合的分數,來作為活躍度的定義,到底是取第一個主成分,還是前兩個或前三個,這要取決于主成分分析的特征根和累計方差貢獻率,一般來說,如果前面幾個特征根的累計方差貢獻率達到80%以上,就可以基本認為前面幾個主成分就可以相應地代表原始資料的大部分資訊了;至于資料标準化技術得到了普遍采用,主要是因為不同的名額有不同的度量尺度,隻有在标準化之後,才可以将資料按照比例進行縮放,使之落入一個小的區間範圍之内,這樣,不同變量經過标準化處理後就可以有平等的分析和比較基礎了。關于資料标準化的詳細介紹,可參看本書8.5.4節和9.3.2節。
使用者路徑分析是網際網路行業特有的分析專題,主要是分析使用者在網頁上流轉的規律和特點,發現頻繁通路的路徑模式,這些路徑的發現可以有很多業務用途,包括提煉特定使用者群體的主流路徑、網頁設計的優化和改版、使用者可能浏覽的下一個頁面的預測、特定群體的浏覽特征等。從這些典型的用途示例中可以看到,資料化營運中的很多業務部門都需要應用使用者路徑分析,包括營運部門、産品設計部門(pd)、使用者體驗設計部門(user experience design,ued)等。
路徑分析所用的資料主要是web伺服器中的日志資料,不過,網際網路的特性使得日志資料的規模通常都是海量的。據預測,到2020年,全球以電子形式存儲的資料量将達到35zb(相當于10億塊1tb的硬碟的容量),是2009年全球存儲量的40倍。而在2010年年底,根據 idc的統計,全球的資料量已經達到了120萬pb,或1.2zb。如果将這些資料都刻錄在dvd上,那麼光把這些dvd盤片堆疊起來就可以從地球往月球一個來回(單程約24萬英裡)。
路徑分析常用的分析技術有兩類,一類是有算法支援的,另一類是嚴格按照步驟順序周遊主要路徑的。關于路徑分析中具體的算法和示例将在第13章做詳細的說明。
在網際網路資料化營運的實踐中,如果能把單純的路徑分析技術、算法與其他相關的資料分析技術、挖掘技術相融合,那麼将會産生更大的應用價值和更為廣闊的前景。這種融合的思路包括通過聚類技術劃分出不同的群體,然後分析不同群體的路徑特征,針對特定人群進行的路徑分析,比如,對比付費人群的主要路徑與非付費人群的主要路徑,優化頁面布局等、根據下單付費路徑中頻繁出現的異常模式可能來對付費環境的頁面設計進行優化,提升付費轉化率,減少下單後的流失風險等。
在營運團隊看來,路徑分析的主要用途之一,即為監控營運活動(或者目标客戶)的典型路徑,看是否與當初的營運設想一緻。如果不一緻,就繼續深入分析原因,調整營運思路或頁面布局,最終目的就是提升使用者點選頁面的效率;其二就是通過路徑分析,提煉新的有價值的頻繁路徑模式,并且在以後的營運中對這些模式加以應用,提升營運的效率和特定效果。比如,通過某次營運活動的路徑分析,我們發現從a入口進來的使用者有30%會進入c頁面,然後再進入b頁面,而a入口是系列營運活動的主要入口之一,基于這個c頁面的重要性發現,營運人員在該頁面設定了新的提醒動作,取得了較好的深度轉化率。
在産品設計部門(pd)看來,路徑分析是實作産品優化的一個重要依據和工具,被路徑分析證明是冷僻的功能點和路徑的,或許可以被進一步考慮是否有必要取消或優化。對于ued來說,路徑分析也是這樣幫助他們優化頁面設計的。
交叉銷售這個概念在傳統行業裡其實已經非常成熟了,也已被普遍應用,其背後的理論依據是一旦客戶購買了商品(或者成為付費使用者),企業就會想方設法保留和延長這些客戶在企業的生命周期和客戶的利潤貢獻,一般會有兩個營運選擇方向,一是延緩客戶流失,讓客戶盡可能長久地留存,在該場景下,通常就是客戶流失預警模型發揮作用,利用流失預警模型,提前鎖定最可能流失的有價值的使用者,然後客戶服務團隊采用各種客戶關懷措施,盡量挽留客戶,進而最終降低客戶流失率;二是讓客戶消費更多的商品和服務,進而更大地提升客戶的商業價值,挖掘客戶利潤,這種盡量挖掘客戶利潤的說法在以客戶為中心的激烈競争的2.0時代顯得有些赤裸裸,是以,更加溫和的說法就是通過資料分析挖掘,找出客戶進一步的消費需求(潛在需求),進而更好及更主動地引導、滿足、迎合客戶需求,創造企業和客戶的雙赢。在這第二類場景中,涉及的主要應用模型就是交叉銷售模型。
交叉銷售模型通過對使用者曆史消費資料的分析挖掘,找出有明顯關聯性質的商品組合,然後用不同的模組化方法,去建構消費者購買這些關聯商品組合的可能性模型,再用其中優秀的模型去預測新客戶中購買特定商品組合的可能性。這裡的商品組合可以是同時購買,也可以有先後順序,不可一概而論,關鍵要看具體的業務場景和業務背景。
不同的交叉銷售模型有不同的思路和不同的模組化技術,但是前提一般都是通過資料分析找出有明顯意義和商業價值的商品組合,可以同時購買,也可以有先後順序,然後根據找出的這些特性去模組化。
綜合資料挖掘的中外企業實踐來看,最少有4種完全不同的思路,可以分别在不同的項目背景中圓滿完成建立交叉銷售模型的這個任務。一是按照關聯技術(association analysis),也即通常所說的購物籃分析,發現那些有較大可能被一起采購的商品,将它們進行有針對性的促銷和捆綁,這就是交叉銷售;二是借鑒響應模型的思路,為某幾種重要商品分别建立預測模型,對潛在消費者通過這些特定預測模型進行過濾,然後針對最有可能的前5%的消費者進行精确的營銷推廣;三是仍然借鑒預測響應模型的思路,讓重要商品兩兩組合,找出那些最有可能消費的潛在客戶;四是通過決策樹清晰的樹狀規則,發現基于具體資料資源的具體規則(有的多,有的少),國外很多營銷方案的制訂和執行實際上都是通過這種方式找到靈感和思路的。
相應的模組化技術主要包括關聯分析(association analysis)、序列分析(sequence analysis),即在關聯分析的基礎上,增加了先後順序的考慮,以及預測(響應、分類)模型技術,諸如邏輯回歸、決策樹等。
上面總結的是基于傳統行業的實踐,這些經驗事實上也成功地應用到了網際網路行業的資料化營運中。無論是多種線上産品的交叉銷售,還是電子商務中的交叉銷售,抑或各種服務的推廣、營運中的商品捆綁政策,都可以從中看到交叉銷售的影子,這種理念正在深入地影響着資料化營運的效果和程序。
下面針對典型的交叉銷售模型的應用場景來舉個例子:a産品與b産品都是公司saas系列産品線上的重點産品,經過分析發現兩者付費使用者的重合度高達40%,現在營運方需要一個資料分析解決方案,可以有效識别出最可能在消費a産品的基礎上也消費b産品的潛在優質使用者。本案例的分析需求,實際上就是一個典型的交叉銷售模型的搭建需求,資料分析師在與業務團隊充分溝通後,通過現有資料進行分析,找出了同時消費a産品和b産品(注意,是同時消費,還是有先後次序,這個具體的定義取決于業務需求的判斷,兩者取數邏輯不同,應用場景也不同,不過分析模組化技術還是可以相同的)使用者的相關的網站行為、商業行為、客戶屬性等,之後再進行資料分析和挖掘模組化,最後得到了一個有效的預測模型,通過該模型可以對新的使用者資料進行預測,找出最可能消費a産品同時也消費b産品的潛在付費使用者人群(或名單)。這樣,營運方就可以進行精準的目标營運,進而有效提升營運效果,有效提升付費使用者數量和付費轉化率了。
資訊品質模型在網際網路行業和網際網路資料化營運中也是有着廣泛基礎性應用的。具體來說,電商行業和電商平台連接配接買賣雙方最直接、最關鍵的紐帶就是海量的商品目錄、商品offer、商品展示等,無論是b2c(如當當網、凡客網),還是c2c(如淘寶網),或者是b2b(如阿裡巴巴),隻要是以商業為目的,以交易為目的的,都需要采用有效手段去提升海量商業資訊(商品目錄、商品offer、商品展示等)的品質和結構,進而促進交易。在同等條件下,一個要素齊備、布局合理、界面友好的網上店鋪或商品展示一定比不具備核心要素、布局不合理、界面不友好的更加容易達成交易,更加容易獲得買家的好感,這裡揭示的其實就是資訊品質的重要價值。
為讓讀者更加直覺了解資訊品質的含義,下面通過某網站的截圖來舉例說明什麼是資訊品質好的offer效果,如圖3-1和圖3-2所示。
不難發現,相對于圖3-2來說,圖3-1中有更多的商品要素展示,包括付款方式、産品品牌、産品型号等,另外在詳細資訊欄目裡,所包含的資訊也更多更全。也就是說,圖3-1中商品offer的資訊品質要明顯好于圖3-2。
網際網路行業的資訊品質模型所應用的場合主要包括商品offer品質優化、網上店鋪品質優化、網上論壇的發帖品質優化、違禁資訊的過濾優化等,凡是涉及資訊品質監控和優化的場景都是适用(或借鑒)資訊品質模型的解決方案的。
圖3-1 資訊品質較好的offer界面圖
圖3-2 資訊品質較差的offer界面圖
建構資訊品質模型所涉及的主要還是正常的資料挖掘技術,比如回歸算法、決策樹等。但是對于資訊品質模型的需求,由于其目标變量具有一定的特殊性,是以它與目标客戶預測(響應)模型在思路和方法上會有一些不同之處,具體内容如下。
任何模型的搭建都是用于響應特定的業務場景和業務需求的,有時候搭建資訊品質模型的目标變量是該資訊(如商品offer)是否在特定的時間段産生了交易,此時,目标變量就是二進制的,即是與否;更多的時候,資訊品質模型的目标變量與是否交易沒有直接關系(這其實很容易了解,因為影響成交的因素太多),甚至有些時候資訊品質本身是主觀的判斷,在這種情況下,沒有明确的來自實際資料的目标變量。那如何定義目标變量呢?專家打分,模型拟合是一個比較合适的變通政策。
對于專家打分,模型拟合的具體操作,下面以“商品offer的星級劃分”項目為例來進行具體的解釋和示範。商品offer其實就是網上交易中,賣家針對每種出售的商品展示具體的商品細節、交易條款、圖檔細節等,使其構成的一個完整的頁面,一般來說買家浏覽了某種具體的商品offer以後,隻要點選“加入購物車”就可以進行後續的購買付費流程了。在某次“商品offer的星級劃分”項目中,目标變量就是專家打分,由業務專家、行業專家基于行業的專業背景知識,針對商品offer構成要素的權重進行人為打分,這些構成要素包括标題長度、圖檔數量、屬性選填的比例、是否有分層價格區間、是否填寫供貨總量資訊、是否有混批說明、是否有營運說明、是否支援線上第三方支付等。首先抽取一定數量的樣本,請行業專家對這些樣本逐個打分指派,在取得每種商品offer的具體分數後,把這些分數作為目标變量,利用資料挖掘的各種模型去拟合這些要素與總分數的關系,最終形成一個合适的模型,該模型比較有效地綜合了專家打分的意見并且有效拟合offer構成要素與總分數的關系。為了更加準确,在專家打分的基礎上,還可以輔之以客戶調研,進而對專家的打分和各要素的權重進行修正,最後在修正的基礎上進行模型的搭建和拟合,這屬于項目的技術細節,不是項目核心,故不做深入的講解。
資訊品質模型是電子商務和網上交易的基本保障,其主要目的是確定商品基本資訊的優質和高效,讓買家更容易全面、清楚、高效地了解商品的主要細節,讓賣家更容易、更高效地展示自己的商品。無論是c2c(如淘寶),還是b2b(如阿裡巴巴),抑或是b2c(如當當網、凡客網),都可以用類似的方法去優化、提升自己的商品展示品質和效果,有效提升和保障交易的轉化率。
服務保障模型主要是站在為客戶服務的角度來說的,出發點是為了讓客戶(平台的賣家)更好地做生意,達成更多的交易,我們(平台)應該為他們提供哪些有價值的服務去支援、保障賣家生意的發展,這裡的服務方向就可以有很多的空間去想象了。比如,讓賣家購買合适的增值産品,讓賣家續費合适的增值産品、賣家商業資訊的違禁過濾、賣家社群發帖的冷熱判斷等,凡是可以更好地武裝賣家的,可以讓賣家更好地服務買家的措施,無論是産品武裝,還是宣傳幫助,都屬于服務保障的範疇,都是服務保障模型可以并且應該出力的方向。
針對服務保障模型的示例将會在随後的預測(響應、分類)模型裡專門進行介紹,是以這裡不展開讨論,但是對于服務保障環節,我們還是應該有一定的認識,無論從資料化營運的管理、客戶關系管理,還是資料分析挖掘應用上,服務保障環節都是不能忽視的一個方面。
使用者(買家、賣家)分層模型也是資料化營運中常見的解決方案之一,它與資料化營運的本質是密切相關的。精細化營運必然會要求差別對待,而分層(分群)則是差別對待的基本形式。
分層模型是介于粗放營運與基于個體機率預測模型之間的一種折中和過渡模型,其既兼顧了(相對粗放經營而言比較)精細化的需要,又不需要(太多資源)投入到預測模型的搭建和維護中,因而在資料化營運的初期以及在戰略層面的分析中,分層模型有着比較廣泛的應用和較大的價值。
正如預測模型有特定的目标變量和模型應用場景一樣,分層模型也有具體的分層目的和特定用途,這些具體的目的和用途就決定了分層模型的建構思路和評價依據。其常用的場景為:客戶服務團隊需要根據分層模型來針對不同的群體提供不同的說辭和相應的服務套餐;企業管理層需要基于線上交易賣家數量來形成以其為核心的賣家分層進化視圖;營運團隊需要通過客戶分層模型來指導相應的營運方案的制訂和執行,進而提高營運效率和付費轉化率等。這些分層模型既可以為管理層、決策層提供基于特定目的的統一進化視圖,又可以給業務部門做具體的資料化營運提供分群(分層)依據和參考。
分層模型常用的技術既包括統計分析技術(比如相關性分析、主成分分析等),又可以含有預測(響應、分類)模型的技術(比如通過搭建預測模型發現最重要的輸入變量及其排序情況,然後根據這些變量對分層進行大緻的劃分,并通過實際資料進行驗證),這要視具體的分析目的、業務背景和資料結構而定,同時要強調的是,一個好的分層模型的搭建一定是需要業務方的參與和貢獻的,而且其中的業務邏輯和業務思考遠遠勝過分析技術本身。
下面我們分别用兩個典型的案例來說明分層模型是如何搭建和應用的。
案例一:以交易賣家數量為核心的賣家分層進化視圖
背景:某網際網路公司作為買賣雙方的交易平台,其最終的價值展現在買賣雙方在該平台上達成交易(進而真正讓買賣雙方雙赢,滿意)。現在,管理層希望針對線上成交的賣家(群體)形成一個分層進化的視圖。其基本目标就是,從免費注冊的賣家開始,通過該視圖可以粗略地、有代表性地勾畫出賣家一步一步成長、進步乃至最終達成交易的全過程。這裡的每一層都是一個或幾個有代表性的重要名額門檻,順着不同的門檻逐漸進化,越往上走,人群越少,越有可能成為有交易的賣家,而最後最高一層将是近30天來有交易的賣家。從這個背景和目标描述裡,我們可以大緻想象出這個分層模型是一個類似金字塔的形狀(底部人數多,越往上越小,表示人群在減少)。
這個分層模型的主要價值展現在:可以讓管理層、決策層對交易賣家的成長、進化、過濾的過程有個清晰、直覺的把握,并且可以從中直覺地了解影響賣家交易的一系列核心因素,以及相應的大緻門檻閥值,也可以讓具體的業務部門直覺地了解“培養成交賣家,讓賣家能線上成交”的主要因素,以及相應的營運抓手。
在本案例中,有必要了解一些關鍵的業務背景和業務因素,比如要想線上交易,賣家的offer必須是“可線上交易offer”。這個條件很關鍵,所謂“可線上交易offer”是指該商品的offer支援支付寶等第三方線上支付手段,如果賣家的offer不支援這些手段,那就無法線上交易,也就無法滿足本課題的目标了。是以,這裡的“賣家offer必須是可線上交易offer”是一個前期的重要門檻和閥值,從此也可以看出,對業務背景的了解非常重要,它決定了課題是否成功。
下面來談談具體的分析思路,先是從最基本的免費注冊的賣家(即“全會員”)開始,之後是近30天有登入網站的賣家(說明是“活”的賣家,這裡經過了直覺的業務思考),再到近1年有新發或重發offer的賣家,然後是目前有效offer的賣家,最後是目前有可線上交易offer的賣家,這個分析過程其實是第一部分的思考,它們構成了金字塔的下半部分,基本上是基于業務背景的了解和順理成章的邏輯來“進化”的,之是以在“全會員”與“目前有可線上交易offer”之間安插了另外3層逐漸“進化”的名額,主要也是基于業務方需要門檻的進度和細分的考慮,但這不是主要的核心點。
接下來,從“目前有可線上交易offer的賣家”開始,層層進化到最高端的“近30天有線上交易的賣家”,也就是找出影響賣家成交的核心因素,并将之提煉成具體的層級和門檻,這一部分則是本案例的重點和核心所在。
如何找出其中的核心要素以及重要性的先後順序?在本課題中,使用了預測(分類、響應)模型的方法,即通過搭建預測(響應)模型(目标變量是“近30天是否線上成交”,輸入變量由資料分析團隊與業務團隊共同讨論确定),并通過多種模型算法的比較,最後找出決定交易的幾個最重要的輸入變量及先後次序。
最終的分層模型大緻如圖3-3所示,限于企業商業隐私的考慮,針對該資料做了處理,請勿對号入座。
圖3-3 交易賣家分層示意圖
該金字塔每一層裡的數量代表滿足該條件的會員(賣家)數量,而且各層之間的條件是連貫且相容的,比如,從下往上數,第6層“目前有可交易offer”的使用者有204萬人,占其前一層“可交易行業賣家”269萬人的76%,而且該層的使用者必定是同時滿足其下5層的所有條件的(包括來自可交易行業,目前有有效offer,近1年有新發或重發offer,近30天有登入網站或即時通信工具等)。
細心的讀者可能會發現,最頂層的人數是31萬,占近30天有交易賣家總數的71%,為什麼不能占近30天有交易賣家總數的100%?這個差距正是由金字塔模型的本質所決定的,無論這個層層進化的金字塔模型多麼完美,它還是無法完全圈定有交易賣家的總數,總是有一部分有交易的賣家不是滿足上述金字塔上半部分的那些條件、門檻、閥值。這也是類似的分層模型隻能看大數、看主流的主要原因和特點,但是隻要這個模型可以圈定大多數的人群(比如本項目實作的71%,或者更高),那它就有相當的代表性,就可以作為相應的決策參考和業務參考。
當然,這個模型是否可以投入應用,還需要進一步檢驗,正常的檢驗方法就是通過不同時間段的資料,看是否有相似的規律、門檻、占比、漏鬥,也就是看這個金字塔的結構是否具有一定時間長度的穩定性。在本項目中,我們通過前後各半年的資料分别進行了驗證,發現這個金字塔的結果總體還是比較穩定的,确實可以作為決策參考和業務借鑒。
案例二:客戶服務的分層模型
背景:a産品是一個線上使用的付費産品,其主要功能就是讓賣家實時獲悉來自己網店的買家,可以讓賣家通過主動對話促成雙方的交談,一旦對上話,賣家就可以得到由系統提供的買家聯系方式等。很明顯,該産品的核心功能(賣點)就是讓賣家第一時間抓住來店鋪的買家,并通過對話拿到買家的聯系方式,友善後期的跟進,直至達成交易。現在該産品的客戶服務團隊正在負責付費使用者的後期續費工作,該客服團隊希望資料分析師幫他們制作一個付費使用者的分層模型,在業務方的設想中該模型至少有3層,每一層可以對應相應的客服方案來幫助該層客戶解決問題,模型的最終目的是促進付費客戶的續費率穩步提升。具體來說,業務方希望根據業務敏感和客服資源儲備,對付費使用者進行3個群體的劃分,每個群體有明确的業務診斷和客服方案(第一個群體,“體質差的客戶群體”,比如訪客數比較少,并且客戶登入線上平台的次數也比較少(導緻雙方握手交談可能性不高),這群客戶被認為是最次要關注的;第二個群體,“問題客戶群體”,比如對該産品的功能點使用都很少的客戶,針對這群客戶,客服團隊可以對他們提供有針對性的産品功能教育;第三個群體,“生死線客戶”,這群客戶特點是有相對而言數量較多的訪客,但是他們很少主動洽談(以至無法拿到買家的聯系方式,影響後期的成交),之是以稱之為“生死線客戶”,是因為客服團隊希望作為重點關懷的群體,把他們從産品使用的“無效性”上拉回來,把他們從可能流失(續費)的生死線上拉回來(這群客戶有理由從産品中獲益(拿到買家聯系方式),隻是他們沒有主動聯系客戶,如果他們能主動與買家洽談,進而拿到聯系方式,他們的成交業務有理由明顯上升)。
該案例的分層模型用不上複雜的模組化技術,隻需要基于簡單的統計技能就可實作。在深度把握産品價值和業務背景的前提下,我們與業務方一起基于他們設想的3個細分群體,根據實際資料找出了相應的具體閥值。具體來說,針對“體質差的客戶群體”,基于訪客數量和自身登入平台的天數和次數,進行兩維資料透視,就可以找到滿意的閥值和門檻定義;針對“問題客戶群體”,隻需要針對各功能點使用情況的10分位,找出最低的20%~30%使用者就可以了;針對“生死線客戶群體”,同樣是基于訪客數量和自身主動洽談的次數,進行兩維資料透視,也可以找到滿意的閥值和門檻定義,這樣就能根據資料分布情況找到有很多訪客,同時主動洽談次數很少的客戶群體。上述群體劃分的方法主要是基于業務了解和客服團隊的資源配備的,事後的方案驗證也表明,該種群體劃分不僅能讓業務方更容易産生了解和共鳴,也能很好地穩定并提升付費使用者的續費率。
賣家(買家)交易模型的主要目的是為買賣雙方服務,幫助賣家獲得更多的買家回報,促進賣家完成更多的交易、獲得持續的商業利益,其中涉及主要的分析類型包括:自動比對(預測)買家感興趣的商品(即商品推薦模型)、交易漏鬥分析(找出交易環節的流失漏鬥,幫助提升交易效率)、買家細分(幫助提供個性化的商品和服務)、優化交易路徑設計(提升買家消費體驗)等。交易模型的很多分析類型其實已經在其他項目類型裡出現過了,之是以把它們另外歸入賣家(買家)交易模型的類型,主要是希望和讀者一起換個角度(從促進交易的角度)來看待問題和項目。“橫看成嶺側成峰”,同樣的模型課題,其實有不同的主題應用場景和不一樣的出發點,靈活、自如是一個合格的資料分析師應該具備的專業素養。
這裡的信用風險包括欺詐預警、糾紛預警、高危使用者判斷等。在網際網路高度發達,網際網路技術日新月異的今天,基于網絡的信用風險管理顯得尤其基礎,尤其重要。
雖然目前信用風險已經作為一個獨立的專題被越來越多的網際網路企業所重視,并且有專門的資料分析團隊和風控團隊負責信用風險的分析和監控管理,但是從資料分析挖掘的角度來說,信用風險分析和模型的搭建跟正常的資料分析挖掘沒有本質的差別,所采用的算法都是一樣的,思路也是類似的。如果一定要找出這兩者之間的差別,那就得從業務背景考慮了,從風險的業務背景來看,信用風險分析與模型相比于正常的資料分析挖掘有以下一些特點:
分析結論或者欺詐識别模型的時效更短,需要優化(更新)的頻率更高。網絡上騙子的行騙手法經常會變化,導緻分析預警行騙欺詐的模型也要是以持續更新。
行騙手段的變化很大程度上是随機性的,是以這對欺詐預警模型的及時性和準确性提出了嚴重的挑戰。
對根據預測模型提煉出的核心因子進行簡單的規則梳理和羅列,這樣就可在風控管理的初期階段有效鎖定潛在的目标群體。
鑒于商品推薦模型在網際網路和電子商務領域已經成為一個獨立的分析應用領域,并且正在飛速發展并且得到了廣泛應用。是以除本節以外,其他章節将不再對商品推薦模型做任何分析和探讨,至于本節,相對于其他的分析類型來說,會花費更多的筆墨和篇幅。希望能給讀者提供足夠的原理和案例。
3.11.1 商品推薦介紹
電子商務推薦系統主要通過統計和資料挖掘技術,并根據使用者在電子商務網站的行為,主動為使用者提供推薦服務,進而來提高網站體驗的。根據不同的商業需求,電子商務推薦系統需要滿足不同的推薦粒度,主要以商品推薦為主,但是還有一些其他粒度推薦。譬如query推薦、商品類目推薦、商品标簽推薦、店鋪推薦等。目前,常用的商品推薦模型主要分為規則模型、協同過濾和基于内容的推薦模型。不同的推薦模型有不同的推薦算法,譬如對于規則模型,常用的算法有apriori等;而協同過濾中則涉及k最近鄰居算法、因子模型等。沒有放之四海而皆準的算法,在不同的電子商務産品中,在不同的電子商務業務場景中,需要的算法也是不一樣的。實際上,由于每種算法各有優缺點,是以往往需要混合多種算法,取長補短,進而提高算法的精準性。
3.11.2 關聯規則
1. apriori算法
電子商務中常用的一種資料挖掘方法就是從使用者交易資料集中尋找商品之間的關聯規則。關聯規則中常用的一種算法是apriori算法。該算法主要包含兩個步驟:首先找出資料集中所有的頻繁項集,這些項集出現的頻繁性要大于或等于最小支援度;然後根據頻繁項集産生強關聯規則,這些規則必須滿足最小支援度和最小置信度。
上面提到了最小支援度和最小置信度,事實上,在關聯規則中用于度量規則品質的兩個主要名額即為支援度和置信度。那麼,什麼是支援度和置信度呢?接下來進行講解。
給定關聯規則x=>y,即根據x推出y。形式化定義為:
支援度(x=>y)=
置信度(x=>y)=
假設d表示交易資料集;k為項集,即包含k個項的集合;lk表示滿足最小支援度的k項集;ck表示候選k項集。apriori算法的參考文獻描述如下。
在該算法中,候選集的計算過程如下所示。
l1={滿足最小支援度的1項集}
for (k=2; lk-1 ≠; k++)
ck=candicate_gen( lk-1 )//計算候選項集
for all transactions t∈d do
ct=subset(ck,t)//候選集是否包含在t中
for all candicates c∈ct do
c.count++
end
lk={c∈ck | c.count大于等于最小支援度}
合并所有的lk,得到頻繁項集
首先進行連接配接運算如下:
insert into ck
select p.item1, p.item2, p.itemk-1,…, q.itemk
from lk-1 p, lk-1 q
where p.item1=q.item1 and … and p.itemk-2=q.itemk-2 and p.itemk-1<q.itemk-1;
然後根據頻繁項集定理(即頻繁項集的子集必定是頻繁項集)進行剪枝,過濾掉非頻繁項集,過程如下所示:
forall itemset c∈ck
forall (k-1) 子集 s of c do
if (s∈lk-1 ) then
delete c from ck
從上述算法中可以看出,該算法存在一些困難點,譬如需要頻繁掃描交易資料集,這樣如果面臨海量資料集,就難以滿足實際應用需求;對于大型資料集,計算候選集算法的效率較低,這也是一個難以克服的問題。目前已經有一些優化的方法用于處理這些問題,譬如fp-growth算法。在實際應用中,随着資料的不斷增長,可能還需要通過分布式計算來提高算法性能,譬如機器學習算法包mahout中實作了的并行版本fp-growth算法。
2. apriori算法執行個體
假設給定如下電子商務網站的使用者交易資料集,其中,定義最小支援度為2/9,即支援度計數為2,最小置信度為70%,現在要計算該資料集的關聯規則,如表3-1所示。
表3-1 使用者交易資料集
交易辨別 購買商品清單
2001 i1,i2,i5
2002 i2,i4
2003 i2,i3
2004 i1,i2,i4
2005 i1,i3
2006 i2,i3
2007 i1,i3
2008 i1,i2,i3,i5
2009 i1,i2,i3
計算步驟如下所示。
步驟1,根據apriori算法計算頻繁項集。
1)計算頻繁1項集。掃描交易資料集,統計每種商品出現的次數,選取大于或等于最小支援度的商品,得到了候選項集,如表3-2所示。
表3-2 頻繁1項集
商品集 包含該商品集的記錄數
i1 6
i2 7
i3 6
i4 2
i5 2
2)根據頻繁1項集,計算頻繁2項集。首先将頻繁1項集和頻繁1項集進行連接配接運算,得到2項集,如下所示:
商品集 商品集
i1 i1,i2
i2 i1,i3
i3 i1,i4
i4 i1,i5
i5 i2,i3
i2,i4
i2,i5
i3,i4
i3,i5
i4,i5
掃描使用者交易資料集,計算包含每個候選2項集的記錄數,如表3-3所示。
表3-3 候選2項集
i1,i2 4
i1,i3 4
i1,i4 1
i1,i5 2
i2,i3 4
i2,i4 2
i2,i5 2
i3,i4 0
i3,i5 1
i4,i5 0
根據最小支援度,得到頻繁2項集,如表3-4所示。
表3-4 頻繁2項集
3)根據頻繁2項集,計算頻繁3項集。首先将頻繁2項集進行連接配接,得到{{i1, i2, i3}, {i1, i2, i5}, {i1, i3, i5}, {i2, i3, i4}, {i2, i3, i5}, {i2, i4, i5}},然後根據頻繁項集定理進行剪枝,即頻繁項集的非空子集必須是頻繁的,{i1, i2, i3}的2項子集為{i1,i2},{i1,i3},{i2,i3},都在頻繁2項集中,則保留;
{i1, i2, i5}的2項子集為{i1,i2},{i1,i5},{i2,i5},都在頻繁2項集中,則保留;
{i1, i3, i5}的2項子集為{i1,i3},{i1,i5},{i3,i5},由于{i3,i5}不是頻繁2項集,移除該候選集;
{i2, i3, i4}的2項子集為{i2,i3},{i2,i4},{i3,i4},由于{i3,i4}不是頻繁2項集,移除該候選集;
{i2, i3, i5}的2項子集為{i2,i3},{i2,i5},{i3,i5},由于{i3,i5}不是頻繁2項集,移除該候選集;
{i2, i4, i5}的2項子集為{i2,i4},{i2,i5},{i4,i5},由于{i4,i5}不是頻繁2項集,移除該候選集。通過剪枝,得到候選集{{i1, i2, i3}, {i1, i2, i5}},掃描交易資料庫,計算包含候選3項集的記錄數,得到表3-5。
表3-5 頻繁3項集
i1, i2, i3 2
i1, i2, i5 2
4)根據頻繁3項集,計算頻繁4項集。重複上述的思路,得到{i1,i2,i3,i5},根據頻繁項集定理,它的子集{ i2,i3,i5}為非頻繁項集,是以移除該候選集。進而,頻繁4項集為空,至此,計算頻繁項集的步驟結束。
步驟2,根據頻繁項集,計算關聯規則。
這裡以頻繁3項集{i1, i2, i5}為例,計算關聯規則。{i1, i2, i5}的非空子集為{i1,i2}、{i1,i5}、{i2,i5}、{i1}、{i2}和{i5}。
規則1,{i1,i2}=>{i5}, 置信度為{i1, i2, i5}的支援度除以{i1,i2}的支援度,即2/4=50%,因其小于最小置信度,是以删除該規則。
同理,最後可以得到{i1,i5}=>{i2},{i2,i5}=>{i1}和{i5}=>{i1,i2}為3條強關聯規則。
然而,在實際應用apriori算法時,需要根據不同的粒度,譬如類目、商品等,結合不同的次元(浏覽行為,購買行為等)進行考慮,進而建構符合業務需求的關聯規則模型。在電子商務應用中,關聯規則算法适用于交叉銷售的場景。譬如,有人要出行(飛往北京),根據計算出的關聯規則(如:機票=>酒店)來考慮,那麼,可以根據使用者購買的機票,為使用者推薦合适的北京酒店;再比如,在情人節,根據關聯規則,将巧克力和玫瑰花進行捆綁銷售等。
另外,關聯規則還可以用來開發個性化電子商務推薦系統的top n推薦。首先,根據使用者的交易資料,計算使用者在特定時序内購買過的商品;然後,根據關聯規則算法,計算滿足最小支援度和最小置信度的商品關聯規則;再根據使用者已經購買的商品和商品關聯規則模型,預測使用者感興趣的商品,同時過濾掉使用者已經購買過的商品,對于其他的商品,則按照置信度進行排序,進而為使用者産生商品推薦。
3.11.3 協同過濾算法
協同過濾是迄今為止最成功的推薦系統技術,被應用在很多成功的推薦系統中。電子商務推薦系統可根據其他使用者的評論資訊,采用協同過濾技術給目标使用者推薦商品。協同過濾算法主要分為基于啟發式和基于模型式兩種。其中,基于啟發式的協同過濾算法,又可以分為基于使用者的協同過濾算法和基于項目的協同過濾算法。啟發式協同過濾算法主要包含3個步驟:1)收集使用者偏好資訊;2)尋找相似的商品或者使用者;3)産生推薦。
“巧婦難為無米之炊”,協同過濾的輸入資料集主要是使用者評論資料集或者行為資料集。這些資料集主要又分為顯性資料和隐性資料兩種類型。其中,顯性資料主要是使用者打分資料,譬如使用者對商品的打分,如圖3-4所示。
圖3-4 某電商網站使用者對某商品的評分結果
但是,顯性資料存在一定的問題,譬如使用者很少參與評論,進而造成顯性打分資料較為稀疏;使用者可能存在欺詐嫌疑或者僅給定了部分資訊;使用者一旦評分,就不會去更新使用者評分分值等。
而隐性資料主要是指使用者點選行為、購買行為和搜尋行為等,這些資料隐性地揭示了使用者對商品的喜好,如圖3-5所示。
隐性資料也存在一定的問題,譬如如何識别使用者是為自己購買商品,還是作為禮物贈送給朋友等。
圖3-5 某使用者最近在某電商網站的浏覽商品記錄(左側的3本書)
1. 基于使用者的協同過濾
基于使用者(user-based)的協同過濾算法首先要根據使用者曆史行為資訊,尋找與新使用者相似的其他使用者;同時,根據這些相似使用者對其他項的評價資訊預測目前新使用者可能喜歡的項。給定使用者評分資料矩陣r,基于使用者的協同過濾算法需要定義相似度函數s:u×u→r,以計算使用者之間的相似度,然後根據評分資料和相似矩陣計算推薦結果。
在協同過濾中,一個重要的環節就是如何選擇合适的相似度計算方法,常用的兩種相似度計算方法包括皮爾遜相關系數和餘弦相似度等。皮爾遜相關系數的計算公式如下所示:
其中,i表示項,例如商品;iu表示使用者u評價的項集;iv表示使用者v評價的項集;ru,i表示使用者u對項i的評分;rv,i表示使用者v對項i的評分;表示使用者u的平均評分;表示使用者v的平均評分。
另外,餘弦相似度的計算公式如下所示:
另一個重要的環節就是計算使用者u對未評分商品的預測分值。首先根據上一步中的相似度計算,尋找使用者u的鄰居集n∈u, 其中n表示鄰居集,u表示使用者集。然後,結合使用者評分資料集,預測使用者u對項i的評分,計算公式如下所示:
其中,s(u, u')表示使用者u和使用者u'的相似度。
假設有如下電子商務評分資料集,預測使用者c對商品4的評分,見表3-6。
表3-6 電商網站使用者評分資料集
使用者 商品1 商品2 商品3 商品4
使用者a 4 ? 3 5
使用者b ? 5 4 ?
使用者c 5 4 2 ?
使用者d 2 4 ? 3
使用者e 3 4 5 ?
表中? 表示評分未知。根據基于使用者的協同過濾算法步驟,計算使用者c對商品4的評分,其步驟如下所示。
(1)尋找使用者c的鄰居
從資料集中可以發現,隻有使用者a和使用者d對商品4評過分,是以候選鄰居隻有2個,分别為使用者a和使用者d。使用者a的平均評分為4,使用者c的平均評分為3.667,使用者d的平均評分為3。根據皮爾遜相關系數公式來看,使用者c和使用者a的相似度為:
同理,s(c, d) =-0.515。
(2)預測使用者c對商品4的評分
根據上述評分預測公式,計算使用者c對商品4的評分,如下所示:
依此類推,可以計算出其他未知的評分。
2. 基于項目的協同過濾
基于項目(item-based)的協同過濾算法是常見的另一種算法。與user-based協同過濾算法不一樣的是,item-based 協同過濾算法計算item之間的相似度,進而預測使用者評分。也就是說該算法可以預先計算item之間的相似度,這樣就可提高性能。item-based協同過濾算法是通過使用者評分資料和計算的item相似度矩陣,進而對目标item進行預測的。
和user-based協同過濾算法類似,需要先計算item之間的相似度。并且,計算相似度的方法也可以采用皮爾遜關系系數或者餘弦相似度,這裡給出一種電子商務系統常用的相似度計算方法,即基于條件機率計算item之間的相似度,計算公式如下所示:
其中,s(i, j)表示項i和j之間的相似度;freq(ij)表示i和j共同出現的頻率;freq(i)表示i出現的頻率;freq(j)表示j出現的頻率;表示阻力因子,主要用于平衡控制流行和熱門的item,譬如電子商務中的熱銷商品等。
接下來,根據上述計算的item之間的相似度矩陣,結合使用者的評分,預測未知評分。預測公式如下所示:
其中,pu, i表示使用者u對項i的預測評分;s表示和項i相似的項集;s(i, j)表示項i和j之間的相似度;ru, j表示使用者u對項j的評分。
3. item-based協同過濾執行個體
在電子商務推薦系統中,商品相似度計算有着很重要的作用。它既可用于一些特定推薦場景,譬如直接根據目前的商品,為使用者推薦相似度最高的top n商品。同時,它還可以應用于個性化推薦,進而為使用者推薦商品。電子商務網站收集了大量的使用者日志,譬如使用者點選日志等。
基于item-based協同過濾算法,筆者提出了一種增量式商品相似度的計算解決方案。該算法計算流程如圖3-6所示。
圖3-6 增量式商品相似度計算流程圖
其中,商品關系i表示第i天的商品關系資料集。
具體計算步驟如下。
1)擷取當天使用者點選行為資料,過濾掉一些噪聲資料,譬如商品資訊缺失等。進而得到使用者會話sessionid、商品id(商品辨別)、浏覽時間等資訊,如表3-7所示。
由于a4的浏覽時間和a1、a2、a3相差較大,是以将其過濾掉,這裡定義為1800秒,如表3-8所示。
表3-7 使用者點選行為日志表
使用者會話id 浏覽商品的時間 item pairs
100 a1, 20:12 a1, a2 a1, a3
a2, 20:13 a2,a1 a2, a3
a3, 20:15 a3,a1 a3, a2
a4, 23:30
表3-8 過濾後的使用者點選行為日志表
浏覽商品的時間 item pairs
a1, 20:12 a1, a2 a1, a3
a2, 20:13 a2,a1 a2, a3
a3, 20:15 a3,a1 a3, a2
2)首先,計算任意兩種商品之間的共同點選次數。然後,根據基于條件機率的商品相似度計算方法來計算商品的相似度。商品相似度公式如下。
s(i, j)
其中,s(i, j)表示項i和j之間的相似度;freq(ij)表示i和j共同出現的頻率;freq(i)表示i出現的頻率;freq(j)表示j出現的頻率。
3)合并前一天計算的商品相似度資料,進行投票判斷,選擇相似度較大的作為新的商品相似度,進而實作增量式商品相似度計算。
3.11.4 商品推薦模型總結
對于商品推薦模型,除了上述介紹的基于關聯規則和基于協同過濾的算法外,還有其他一些常用的算法,譬如基于内容的算法,即根據商品标題、類目和屬性等資訊,計算商品之間的關系,然後結合使用者行為特征,為使用者提供商品推薦。商品推薦模型面臨着許多重要問題,譬如特征提取問題,即如何從商品标題、類目和屬性中提取商品的重要特征、新使用者問題,即如何解決使用者行為較少,提升推薦品質、新商品問題,即如何處理長尾商品問題,讓更多的商品有推薦展現的機會、稀疏性問題,即對于龐大的使用者和商品資料,使用者評分資料往往會顯得非常稀疏等。面對這些問題,在實際應用中,需要根據業務場景,充分利用各種算法的優點,進而設計出混合推薦算法,以便提升推薦品質。
資料産品是指資料分析師為了響應資料化營運的号召,提高企業全員資料化營運的效率,以及提升企業全員使用資料、分析資料的能力而設計和開發的一系列有關資料分析應用的工具。有了這些資料産品工具,企業的非資料分析人員也能有效地進行一些特定的資料分析工作。是以可以這樣了解,資料産品就是自動化、産品化了資料分析師的一部分正常工作,讓系統部分取代資料分析師的勞動。
其實,我們每個人在日常生活中或多或少都使用過各種各樣的資料産品,有的是收費的,有的是免費的。最常見的免費資料産品,就是我們登入自己的網上銀行,來檢視自己在過去任何時間段的賬戶交易明細。如果你有在當當網上的購物體驗,那麼對當當網賬戶裡的操作應該比較熟悉,如圖3-7所示,使用者可以在“我的收藏”頁面針對自己的所有收藏商品進行有效的管理,這也是一種免費的資料産品。
圖3-7 “我的收藏”頁面
當然了,上面列舉的這些産品更多的是友善使用者進行個人财務、商品管理的,還不是專門針對使用者進行資料分析支援的。下面這個例子,如圖3-8所示則是跟資料分析功能相關的資料産品,量子恒道作為淘寶網的一個免費資料産品,可以幫助網商自我進行精準實時的資料統計、多元資料分析,進而為網商交易提供更強的資料驅動力。
圖3-8 量子恒道的分析展示
決策支援是現代企業管理中大家耳熟能詳的詞彙。資料分析挖掘所承擔的決策支援主要是指通過資料分析結論、資料模型對管理層的管理、決策提供響應和支援,進而幫助決策層提高決策水準和品質。
對于現代企業和事業機關的管理層來說,資料分析的決策支援一部分是通過計算機應用系統自動實作的,這部分就是所謂的決策支援系統(decision support system,dss),最常見的輸出物就是企業層面的核心日報、周報等。每天會由計算機應用系統自動生成這些報表,供管理層決策參考,另一部分是非正常的、特定的分析内容,包括特定的專題分析、專題調研等。
無論是報表還是專題分析,對于資料分析師來說,所涉及的承擔決策支援的工作與支援業務部門的資料分析,在技術和方法上并沒有本質的差別和差異。但是在以下方面會有一定的差别:
決策支援的資料分析工作要求資料分析師站在更高的角度,用更寬的視野進行資料分析。由于是供企業決策層參考的,是以資料分析師要站在企業全景、市場競争的全局來考慮分析思路和結論。
服務的對象不同。這似乎是廢話,但是在資料分析挖掘實踐中,這的确也是資料分析師不能回避的問題。在實踐中,因為是為決策層服務的,是以對分析的時間要求常會更嚴格,項目的優先級也會更高,而且對結論的準确性和精确性的要求也會相對比較苛刻。