天天看點

“資料科學家”或許不再性感,但“資料團隊”的産業化才剛開始 | 專訪領英全球資料科學團隊負責人

定下“頂級資料科學團隊”這個研究話題時,我們第一時間想到了領英(LinkedIn)。

2008年,正是在這家公司,DJ Patil建立了全球首個真正意義上的“資料科學團隊”,并開始用“資料科學家”(Data Scientist)這個詞來描述這些Data man們的工作性質。

在這之後,“資料科學家”開始被譽為21世紀最性感的工作,也成為全球技術精英們近年來最理想的職位之一。

盡管已經過去了十多年,但當我們請領英全球資料科學團隊負責人許亞給資料科學團隊下個定義時,她還是表示,這不容易。

領英全球資料科學團隊負責人許亞

的确,盡管資料科學在學術領域的概念50多年前就有了,但作為職業,相比業内更多成熟的團隊和路徑,這依然是個相對很新的概念。

不同公司和團隊上司人對于“資料科學團隊”的定義範疇大相徑庭:

從時間次元來看,當年研發出Hadoop、Kafka的人會稱自己是資料科學家,但是現在這些大資料底層技術都變成了偏基礎設施的内容,在狹義概念上,已經不再屬于資料科學團隊的範圍;

随着這個領域囊括的範圍越來越多樣,資料對于每家公司的重要性也都隻增不減,資料科學的“嵌入”性越來越高、邊界也越來越模糊。

盡管如此,談及領英這些年“資料科學團隊”的定位和建設,許亞依然有自己非常清晰的思考。

“對于領英來說,資料科學團隊的整體趨勢更加走向專業化,他們的職責不再是建立資料基礎設施或平台,而是怎樣去使用資料科學和工程來最大化資料的價值。”

這是許亞對資料科學團隊任務的要求。

那麼到底如何讓資料的價值最大化呢?從團隊運作方式、商業影響力設定和社會責任等角度,許亞給出了領英的答案。

“嵌入式工作,中心化管理”,資料科學團隊更加“專業化”、“工程化”

和多數網際網路公司一樣,領英的資料科學團隊規模也在近幾年飛速增長。許亞表示,僅是近兩年來,領英的資料團隊擴張了近一倍,從150人增加到目前的300多人。

許亞提到的資料團隊是指領英中心化的資料科學部門。如果用一句話來概括領英的中心資料科學團隊的運作方式,那就是“嵌入式工作,中心化管理”。

和國内不少網際網路公司将資料分析師歸屬于業務BU、向業務主管彙報不同,領英的資料科學團隊成員由許亞的中心部門統籌。雖然在項目工作上,資料科學家們依然會在工位分布和職能上與業務部門緊密聯系,但是從職級從屬上,都直接向許亞彙報,不同領域的資料科學家在工作中會有交集,還會一起開會。

其實領英的資料科學團隊的設定也不是一開始就如此,随着領英資料科學團隊定位的變化,資料科學團隊也從最初的産品組,移到了現在的工程大組。

值得一提的是,目前領英的資料科學和人工智能團隊都在同一個大組裡,許亞表示,資料團隊和人工智能/工程團隊是緊密相連的。

這也從一個側面說明,随着對資料科學團隊的需求逐漸增大,資料團隊的工作會越來越“工程化”。跑的資料會越來越多,對工程團隊的需求也會越來越大,需要對工程團隊越來越多的要求和技術定位。

近年來,各大公司越來越意識到資料的重要性,已有的資料科學涉入領域在進一步擴張。資料團隊之前最常被用到的部門是市場和産品,但是基于領英本身的資料基因,近幾年的一些産品也對之前沒有用到資料的地方做了資料驅動的嘗試。

例如,與架構工程部門合作的資料團隊會去衡量工程架構的建設是否有效率:每年跑大資料的硬體裝置花費很高,怎麼樣在時間上做規劃,讓硬體/GPU等更有效的發揮價值。

在人員構成上,和十年前相比,領英的資料團隊也更加專業化了,底層架構人員也從資料科學團隊分離了出來。

目前領英的資料科學團隊也根據員工不同的專業領域設立了三個工作方向:

工程專家:可以很有效的建立起資料管道(data pipeline) 和資料流 (data flow);

算法專家:在預測、算法領域的技術咖;

業務專家:有很強的業務屬性,将資料見解和公司戰略結合起來;

由于工作側重不同,在管理的過程中也會有意的區分這三類資料科學家,并且保持各類員工的競争力。

許亞提到,她的團隊内部更多是自下而上的工作文化。她不會給團隊指派任務,因為每個組會自覺的告訴許亞他們想達到什麼樣的目标。對于一些大的項目,一般需要跨部門合作,各部門的上司達成共識,配置設定資源來一起實作這個目标,是自上而下和自下而上的結合。

三大KPI名額,量化資料團隊工作

相對複雜的構成和與業務團隊的緊密性,給資料團隊設定商業影響力和發展路線不是一件容易的事。

許亞表示,兩年前她接手領英資料團隊後做的第一件事就是拟定了團隊成功的三要素。雖然資料團隊的價值有時候很難量化,但是有三個名額可以作為探讨的基礎。在資料團隊内部不同組可能會有不同的側重,但對大部分組來說這三個因素都很重要。

資料易得性和工作效率

資料易得性,指的是當外界需要資料的時候,獲得這些資料的難易程度;工作效率,指的是一個人的工作是否可以提升整個團隊的工作效率。

許亞表示,資料科學家之前被人诟病過于追求新鮮感,喜歡挑戰高難度問題,但做完MVP (Minimum Viable Product) 後沒有維護疊代的習慣,永遠都在追逐下一個新難題。資料團隊擁有許多資料資源,比如原始資料,名額資料,資料模型,資料可視化。

當外界對這些資源有需要的時候,如何能夠保證這些需求能夠随時被滿足?軟體開發有一系列衡量資料擷取難易程度的名額,比如SLA(Service-Level Agreement)的達标率就是一個很好的量化名額。

有些資料科學家做了一個很不錯的分析,但是不太關心怎麼把這個分析過程自動化,是以每次有人提需求的時候就需要有人再手動跑一次模型,其實都是重複勞動,不同的人在做相同的重複勞動。如果這個分析實作了自動化,大家都可以享用,其他人就不需要花太多時間精力在這個模型上,整個資料科學團隊的集體工作效率都提高了。

以前許亞的團隊也缺少這種分析自動化産品化的意識,是以她把這個設定為成功三要素之一,強調這種意識的重要性。

戰略化思維

戰略化思維,指的是資料分析結果對公司重要戰略性決策是否有指導作用。

許亞的資料團隊和公司很多高層會打交道,因為他們團隊有一個很重要的職責就是通過資料來確定公司重要決策的大方向是準确的。比如他們需要了解使用者在疫情期間是如何使用領英服務,如何通過領英的産品擷取價值的。

許亞認為在疫情後,使用者的行為多少會發生一些不可逆轉的改變,資料可以幫助團隊更好地去學習使用者行為變化,進而在戰略上指引公司對哪些領域進行重點投資。不管是産品開發還是市場戰略的決定,都需要依靠資料。

直接商業影響力

直接商業影響力 (Direct Business Impact),指的是工作成果對公司商業目标的直接影響力。

每個部門的工作開展是和公司要實作的大目标息息相關的,領英有公司層面的四個核心名額,資料部門在計劃工作的時候,需要考慮如何對公司的商業目标産生積極影響。

AB Test:用資料來證明一切

我們都知道,企業在做産品/功能測試時一般都會用到 A/B test ,即分為兩組使用者,一組對照組,一組實驗組。對照組采用已有的産品或功能,實驗組采用新功能。要做的是找到他們的不同反應,并以此确定哪個版本更好。

A/B test 能對大範圍的事情進行測試,例如亞馬遜對個性化推薦進行 A/B test 後,發現個推能顯著提升收益;谷歌在對搜尋廣告進行排名時也用到了A/B test。

那麼對于領英來說,A/B Test 在領英的産品設計中又扮演着什麼角色呢?如何影響産品決策呢?

許亞和Ron Kohavi、Diane Tang共同寫的一本書關于A/B Test 的書籍《Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing》,在今年4月出版了,書裡有很多關于A/B Test的例子。

可以這樣說,基本上我們在領英網站上能感覺到的更新,領英團隊都會做A/B Test,有些是前端的改變,有些是後端系統的調整。當你打開領英APP,從搜尋欄,搜尋引擎算法,底部導航,到頁面文字大小,這些都是經過A/B Test的。

領英的産品文化以使用者為主導,領英自己不會去假設使用者喜好,一切都通過資料來說話,而不是靠誰的直覺。除了看得到的東西,後端使用者看不到的,領英也會進行A/B Test。比如打開APP要加載内容,需要從後端系統裡擷取資料,每次擷取20條資料還是100條資料,這個決策就涉及到平衡與取舍,擷取資料越多,頁面加載時間越長;擷取資料越少,使用者浏覽的時候就需要頻繁重新整理。是以到底一次擷取多少資料,領英還是通過A/B Test來決定。

還有一個簡單的例子,當領英對一個資料中心的開關做決定時也依靠A/B Test,比如一個使用者發起資料請求,這個請求該發送到哪個資料中心來處理呢?這種情況下使用者到資料中心的距離就是一個很重要的考慮因素,最終領英會通過做A/B Test來選擇最優化的基礎設施方案。

雖然資料團隊是A/B Test方面的專家,在這方面更有經驗,但因為領英有非常完備的A/B Test平台,可以解決大部分實驗需求,包括實驗設計、實施和分析,是以資料團隊不需要介入到每個A/B Test。

這對推廣實驗文化和資料文化很有幫助,因為大家都可以去做實驗,享受資料和實驗帶來的好處。領英内部每天大概有100個新實驗在進行,資料團隊無法關注每個實驗,但是會集中關注一些重要的實驗,深入參與到研究和分析工作中。

在領英以資料為主導的文化浸染下,長遠來看所有人都受益于這樣科學的決策機制。也因為有A/B Test的文化,是以可以跳過争論,直接做個A/B Test就見分曉了。整個過程簡單公正,方案落選的組也可以通過這個機會學習到一些關于使用者的新知識。

A/B Test提倡數學引導的創新,這種創新不取決于誰的職位更高,是以任何團隊都可以放心大膽的去做測試來發掘新點子。

領英作為一個社交平台的社會責任:給每個人公平的機會

在許亞看來,維護公平是一個很有挑戰的課題,因為你很難明确定義公平。

“當我們在說公平的時候,我們在說公平的機會?公平的結果?還是公平的待遇?我之前看過一個有意思的問題,給三個不同高矮的人提供凳子,在公平原則下,你該給他們提供同樣高度的凳子?還是提供不同高度的凳子讓他們坐上去之後一樣高呢?我很難說這個問題有一個絕對正确的答案。”

領英對公平的定義是,擁有同等才能的兩個人,應該獲得同等的職業機會。而不受到種族或者自身人脈的影響。過去兩年時間領英做了很多努力來解決公平問題,取得了不錯的成果。

首先,領英很重視可量化、可測量的名額,因為如果一個問題沒有被資料抓取到,就很難注意到。

例如,每次領英釋出新産品,都需要通過量化的名額來測量這個新産品對使用者帶來影響是否公平。一開始領英的測量名額比較粗線條,他們會看這個産品平均下來對使用者是否有積極影響,但如果細看資料,有可能這個産品隻對一部分人有益,但會損害另一部分人的利益。是以,後來領英采用了一個指數來衡量是否在一個群體内無意間引入了不公平因素,也就是對每個新産品,領英想知道其帶來的提升是否是公平的。

其次,領英關注現有平台上是否存在公平問題的盲點。

例如一個以男性為主體的資料集,訓練出來的模型就更傾向于男性,這是一個隐蔽的不公平點。很多獵頭和HR用領英産品來招人,如果算法推薦的候選人都是男性,女性就失去了公平的競争機會。

大概一年前左右領英推出了一個代表性指數來衡量推薦結果對整體資料集的代表性。比如所有可能候選人的男女比例是1:1,那領英給獵頭推送的前100位候選人的男女比例也應該是1:1。有了這些量化名額,領英可以更好地規範和規避不公平的舉措。

許亞還給我們舉了一個例子。之前領英有一個内推功能,當某個人想申請Google的工作,會收到提示說我的一位好友在Google工作,我可以找他要個内推。

上線初期,領英内部對這個新功能很滿意,因為可以幫助那些有廣泛人脈資源的人更快找到工作,後來領英意識到這個功能會讓那些沒有人脈資源的人更難找到工作,是以就關閉了這個功能。取而代之的是領英推出了一個新工作快速提示功能,一個新職位剛釋出出來,領英會立刻給所有對此類職位感興趣的使用者推送提示。這個功能不僅能幫助所有使用者更快找到工作,對那些關系少的人尤其有幫助,因為他們的消息相對更閉塞一點,是以這個功能能讓更多的人受益。

最近領英也開源了這套技術,希望能助力其他公司去建構一個更公平的社會環境。

随着近年來資料洩漏事件頻頻爆發,資料隐私和安全問題被推上了風口浪尖。許亞也跟大資料文摘聊了聊領英在保護使用者的資料隐私方面都做了什麼。

領英全球有超過6.9億使用者和5000萬家企業,領英的願景是為全球勞動力市場中的每一位創造經濟機會,通過将所有在領英平台發生的行為資料可視化,進而打造全球“經濟圖譜”。是以使用者資料對領英至關重要,如果沒有使用者的信任,領英就沒有辦法去實作他們的願景和使命。

是以在GDPR這些開始之前,領英在保護使用者隐私上已經有了很多投資。許亞提到,除了實作規定裡的要求,領英也用一些很前沿的技術去確定不洩露隐私,比如現在認為是資料隐私保護的“Gold Standard”——差分隐私(Differential Privacy)。

大家經常說到保護隐私,比如說把一些個人資訊隐去了,其他人看不見,我就沒有隐私洩露了,其實不是這樣的。

差分隐私隻是一種保證。假設你的資訊在一堆資料裡面,如果把這些資訊删掉,再運作同樣的一些算法,從資料當中得到的兩個的結果都是一樣的。相當于你的資料在或者不在這個資料庫裡面,最後對于得到的資訊沒有影響。這樣使用者就不需要擔心他們的資料隐私被洩露。

領英三年前就開始針對資料隐私問題進行一些重要的研究,同時也有一些比較成功的應用,例如最近一個針對廣告商的産品,客戶想要用領英的API去獲得一些資訊,比如使用者互動量前十的文章,像這樣一些集合的資訊,領英也用差分隐私去確定使用者的資訊不洩露。

最後,從整個公司文化上面來說,許亞透露,除了去實作資料保護條例的一些要求,領英也用到了一些很前端的技術,來確定使用者的隐私不被洩露。另外,領英也十分重視在資料分享方面的問題,并表示會對此加強技術防護。

采訪過程中,許亞多次提到領英的社會責任。今年,一場突如其來的疫情,全球的勞動力市場都受到了不同程度的影響,不論是就業還是工作方式都迎來了一種新常态。領英利用資料優勢,實時展現勞動力市場的趨勢變化,幫助個人更好地應對當下的不确定性。在分析資料時,領英還發現不同分組内的使用者受到的影響程度不一樣,比如剛入職場的新人會受到更大的沖擊,疫情對女性的負面影響可能大于男性。

通過資料觀察到這些問題後,領英資料科學團隊和業務部門迅速溝通,快速響應,針對各個市場及時提供了一系列有針對性的服務來幫助這些人,讓每個人都能在自己能力範圍内獲得平等的工作機會。

“這是領英作為一個職場社交平台的社會責任。”

繼續閱讀