張溪夢：廟算者多勝－大資料發展戰略

感謝大家聽我做彙報，我希望把我的演講盡量變的更簡短一些。我名字叫張溪夢，在美國大約做工作做了不到十年。主要目的就是做大資料分析，我以前是腦外科醫生，做分析和做醫生沒有本質性差別，就是通過不同的症狀來診斷事物本身的基本的比如說疾病。然後采用不同的方法治愈病人，讓病人身體更健康。

linkedln在世界範圍内有3億使用者，中國有500萬使用者左右，90%的世界前100強公司都在用linkedln提供的服務。

講講大資料就講linkedln的業務模型，商務模型非常簡單，主要是三個環節鍊在一起形成一個很健康管理：

（1）使用者增長與體驗，使用者使用

（2）催生大量的資料

（3）通過這些海量資料，進一步提煉新的産品和服務，為了下一輪使用者增長和體驗做各種準備。

其中涉及到另外一個問題，很多同仁在問我說，你們怎麼賺錢？linkedln的業務基本上來源于四個主要産業，第一個就是人力與獵頭，這部分大約産生53%的收益。第二部分是廣告和市場推廣，我們叫市場解決方案，這塊産生20%的收益。第三部分我們叫做進階訂閱服務，比如說找工作，想做市場推廣的人，然後獵頭的人，他們沒有必要買企業級的解決方案。第四是銷售解決方案。下一步我們準備把這塊業務做大，争取超過獵頭和人事。

講講我們的團隊，我們團隊大約75人左右，主要支援市場、營銷、産品、研發、客服、風控還有最後的運維。運維催生廣告運維、銷售運維、商業運維，分析支援都在我們團隊裡邊。有幾個基本功能，第一是基礎設施，第二是商業情報，在我的團隊裡面，我對bi定義跟傳統bi定義不太一樣。第三塊就是資料科學，還有統計模型，機器挖掘。這三個部門基本是水準的部門，然後剩下的東西，我們有一塊非常大的商業分析，這個部門占到我們團隊50%左右。他們和每個業務産品線緊密相關來支撐業務端。最後一個部門是軟體開發。為什麼我們分析團隊裡面要有軟體開發團隊，我們真正核心競争力就是取決于這個團隊，把各種分析和資料挖掘全部軟體化、規模化、産品化，然後生态系統化。

再講講分析大資料，剛才各位同仁講的非常好，他們涵蓋講的所有内容，不用講太多。我隻需要講一句話，就是資料本身的意義也許沒有大家想象的那麼大，但是分析本身的意義非常大。上面一句話就是人以銅為鏡，可以正衣冠，以古為鏡，可以見興替，以人為鏡，可以知得失。這句話以前是李世民講的一句話，雖然講的很簡單，就是需要用曆史來預測未來，預測完未來之後并沒有講該怎麼做。最重要一點做資料分析就是要盡量的改變未來，讓未來變得更好，這是我們資料分析的一個核心競争力。未來變得越好，産生價值越大，這是我們學到基本的道理。

咱們再講大資料，什麼叫大？這個冰川很大，上面東西很大，直接能把泰坦尼克給滅了，下面還有更大的是資料量很大，真正不是冰川，而是冰淇淋，大資料核心是小資料，真正有能力人就是把大的冰川做成小冰淇淋，然後給孩子。

我們講講linkedln現在在矽谷這邊有四個步驟做大資料分析。

第一步要打好非常良好的基礎，聽上去好象很簡單，很無聊，但是這一步是最關鍵的一步。

第二步是要規模化進行分析，大規模進行分析。

第三步是分析本身産品化

第四是産品的生态化。

第一階段，主要因為這個金字塔很重要，任何一個公司想做好分析，我個人認為大家要仔細看看這個金字塔的結構，第一步做分析本身要了解産品，了解市場，明白運維，知道我們的客戶需要什麼。

第二步就是在産生資料之前，一定要認真做好資料标簽這個工作。因為做資料，做分析的人他是要分析未來的應用，就把正确的産品要加進去。

第三步就是對資料部署和實施的比較深刻的了解，這就包括如何應用。下一步包括了專題分析、商業智能與報告還有深度分析，這些步驟大家都已經看了，不想講太細，這是傳統的商業分析師需要做的工作。

再下一步linkedln裡面有核心的概念，做的僅僅有趣是不夠的，必須要有可執行性。這個可執行性的目的就是為了要幫助企業内部各個員工做決策，做決策的目的是要産生商業價值。這個商業價值不僅是為了掙錢，同時還為了這些使用者産生價值，而不隻是為了公司産生錢的價值。

再講講第二步就是金字塔的菱形化的問題，以前做的分析需要兩個星期到兩個月來回答一個問題，但這是一個最核心的大資料的問題就是慢，沒有效率。第一年我在linkedln工作的時候，作為數學科學家，沒日沒夜幹，我們完成了500多個大小項目，今天為止當我們做了一系列的内部軟體化以後，今天我們的系統，每天能夠回答1200-1500人分析的問題，每一個人能同時問10-12個問題，你可以想象這個系統基本上比我一年之内的工作的效率還高兩到三倍。也就是說規模化是非常非常重要。

第三階段就是資料分析的産品化。linkedln幾年以前産生一個産品推介，包括我跟大家分享在社交或者是銷售垂直領域，我們做了銷售解決方案，這些産品都是資料分析的産品，把他拿出來之後提供給所有客戶，讓大家使用，這是我們linkedln第三階段的戰略，就是資料分析的産品化。

第四步就是資料産品的生态化。一個資料産品本身能産生的價值假設一百，第二個資料産品産生的價值往往不是兩百，往往可能是280或者是300或者是400，因為他們資料本身之間關系和業務本身關聯會産生非常大的疊代，疊代過程中就會産生很多附加值。同時做這個新産品的時候，因為沒有必要再從頭開始，很可能就是舉一反三，這是資料産品矩陣化的重要性。

再舉個例子，首先就舉個銷售例子，這是我們做的，好象在座專業人士知道這個東西。銷售人員想賣貨，在美國他需要問五個問題，第一個問題他需要向哪個公司銷售，有那麼多公司，不可能給每個公司都打電話。第二是誰是決策人，第三是如何接洽，第四2500個銷售員工讓誰接洽這個客戶第五個問題這個銷售人員去了講什麼故事。以往回答這五個問題，說這些話需要一兩個月時間把整個流程搞定，因為這裡邊包括打電話、溝通，包括聯系關系，問問客戶基本的需求。今天我們把所有五個步驟做成一個按紐，以前一個月到兩個月完成的工作，到今天為止一分鐘之内就可以完成。因為所有的公司在linkedln上面都給你分析出來。第二就是可以找到正确的人去接洽，第三我們分析銷售人員的網絡，對這個決策者有更大的影響力。第五就是指派不是一個銷售人員而是團隊幫助協助他工作。第五就是把很清晰的故事講給客戶聽，自動生成ppt。這個當時我認為是在2011年我們産生了新的解決方案。當時至少增長了1.75倍，我個人認為當時環境還不太穩定，我相信他對運維還有商業效能增加絕對不是一倍兩倍的問題，是若幹倍的問題。現在我們做的是鈕已經去掉了，把資訊推給内部銷售員工。

舉個例子，谷歌假設一個hr離職了，加入百度，我們産生這樣的資訊給銷售人員。第一個這個客戶很可能會離開，因為我們的關系已經離開了，第二個會發給下一個銷售人員說，他加入百度，我們會把百度當成新的客戶，這些東西都是實時的。

技術角度東西就是把大的金字塔一步一步最後轉成小的資料的過程，一步一步轉為小、簡單、快速、有規模這是基本的概念。還有就是内部如何支援産品經理的，内部我們有80個産品經理，有不到一千個開發人員。他們開發大量産品，我這些新的産品好不好，他對自己的産品的kpi的貢獻，哪個更好哪個更差，有統計學的意義。産品看似很好，是不是對營收或者是使用者體驗有好的影響，這很深刻的問題。

最後一個問題，在這裡的話他如何優化這個頁面，優化哪個部分。我們當時又做了一個新的核心。以前做一個這樣的分析，需要一個月到三個月時間。因為要資料成熟，資料采集品質，反複分析在統計學上的意義。今天做大規模的自動的産品分析。我們有2000個線上的測試，我們可以為每一個測試追蹤500個以上的緯度或者是500以上的kpi。第三大約我們能做200萬以上的檢驗，第四我們幫助這些pm來優化他的産品和流量，指出産品哪個部分是增長或者是減低的原因。基本已經全部自動化，不需要分析師參與了。

linkedln如何做市場推廣，我們使用者使用行為，使用者履歷，使用者的社交關系，使用者獨到内容。我們問一個問題，誰在找工作，3億使用者裡不可能全部都在找工作，也許15-20%人在找工作。第一我們用使用資料把随機分布的這個變成三角型的結構。在尖上是我們的核心目标客戶，底下是幾率很低的使用者。第二步我們用他的履歷來分析一下他會不會找工作，一個人剛換工作兩個月，他找工作的幾率可能隻有10%，但是另外一個人在你公司待了四年他差不多要離開了。第三步就是社交網絡的資料，邁克認識約翰，這個組裡面，老大撤了，剩下這幫兄弟們團隊裡，他們找工作的幾率我相信遠遠大于另外一個組織，很穩定的組織。是以說利用社交網絡資料再一次把金字塔變的更小、更陡峭、更标準化。

linkedln内部沒有用很傳統的方法去做，以前我們用傳統的方法做，沒日沒夜做，太多的需求。現在我們造一個機器人，這個系統本身來說就是他的工作不斷的建造新的預測模型，自動在背後建立新的預測模型。每個星期用大量的資料，用不同的資料分析的方法，各種方法來模組化型，建立模型之後，它用自動模型來比對現在線上的模型，當他發現有效後，就會自動到線上去。如果把統計分析或者是資料模型做好的話我們有百分之百的信心。這是做的資料好的人和做的随機預測的人的差別。

這裡因為資料本身是不斷變革，當我們人力做的時候，他會不斷的腐爛，這是以前我在管理中心學到的，樹本身是會腐敗的。擱一千年他不會說還是那麼青翠，一定會腐敗。反複做新模型是必要，人力無法滿足這麼多需求。用機器模型做，人要保證在業務上的增長。

在分析角度來說這朵花漂亮嗎？漂亮。用數字表達的話這個花到底有多漂亮？他是60%漂亮？還是80%漂亮或者是10%漂亮。很難講，我們每天改的東西，不會說誰上來就說3456789，大家都是講文字，沒有人講數字。這裡出來一個非結構化，文本資料我們如何從裡面提煉可結構化、可衡量标準。比如說客戶服務記錄，你打電話憤怒了，我的帳戶為什麼被關。使用者讨論群組大家講的東西，你這個産品真好，類似文本文字。第三就是apps評價，再下一個就是客戶滿意度調研回報。社交平台的讨論評價等等。這些東西都是原本無序無法衡量的東西，如何做到把非結構化資料衡量客戶滿意度。

我們在内部建立一個平台，客戶的聲音，這個客戶聲音包括客戶打電話來客戶的聲音。我們從那裡抽取他講話的語音，同時來了解客戶是不是對這個東西滿意，了解完了之後我們要持續追蹤。這個滿意度是不是在變化？滿意度的原因是什麼？首頁打了之後自動就會變化，大量客戶對産品的基本的回報。他核心的原因，為什麼大家喜歡紅色和綠色，這個原因都是從語音提煉出來的。各個組織的人都可以用這個系統幫助他們回答這個問題，這樣客服不用花那麼多時間了。

技術是實作今天大資料規模化的一個基石。美國以前講自由，咱們不談這個了，我在美國上學、工作，他把資訊推給很多人，美國社會比如說像橄榄球形狀，他就是把這個底部慢慢縮小，把中間變大。當大家都有資訊了，相對生活可能就更加美好，生活可能會變得更加簡單，大家有更多時間和家庭和朋友在一起體會人生的美妙。

原文釋出時間為：2014-06-01

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

張溪夢：廟算者多勝－大資料發展戰略

繼續閱讀

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

ansible配置檔案說明及ad hoc指令

vsftpd dead but subsys locked 的解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark