天天看點

Airbnb資料科學團隊進化論:如何由内而外實作資料驅動

Airbnb資料科學團隊進化論:如何由内而外實作資料驅動

雖然團隊組織結構的演化允許資料科學家團隊繁榮興旺,但是公司的成功源于“精準定位”于兩件事:發自肺腑地關愛員工,積極主動的資料驅動決策。不論是開發可持續利用的開源工具還是奮力改進資料科學部門的多樣性,airbnb資料科學團隊負責人alok很清楚,airbnb追求的事都要貫徹這兩個原則。

◆ ◆ ◆

超級增長:短短幾年,從5到70+資料科學家

在2013年,airbnb隻有一個5人資料科學團隊,集中地為公司的資料需求提供服務。此後,他們成長為最大的、也是最有創意的創業團隊之一,擁有超過70名資料科學家,服務于不同的商業部門。除了招聘時堅持高要求和貫徹師徒制外,組織結構也是團隊順利增長的關鍵。

Airbnb資料科學團隊進化論:如何由内而外實作資料驅動

alok把将集中的資料科學家部門分成小的嵌入式團隊,與商務夥伴們坐在一起工作形容為“呼吸新鮮空氣”。與之前的結構相比,他說新的模式對公司而言,“非常給力”。

這個變化是跟随着“到底什麼是資料科學家”的觀念而演化的。很多人同意alok的說法,認為資料科學家這個詞“已經超載”了。他相信,除了資料科學獨角獸,其他人應該可以被分為以下四種角色,才會更好地配置設定工作:

資料工程師-他們接手亂七八糟的資料,打理到可以分析的地步。

 産品建造師-他們建造資料産品供使用者使用。比如,建造一個推薦引擎。

資料分析師-他們提供主要的分析架構,從中發現商業機會。

資料實驗師-他們知道如何設計和實施實驗。

資料科學團隊如何解決快速擴增中帶來的生長痛?alok告訴我,創新和資料科學團隊的演化正是源于公司的兩個極端要求。

第一個是airbnb将自己定位為竭力保證員工的快樂,成功和被重視。比如,投資于新員工入職的資料教育訓練,建立師徒制,參加會議等,都是airbnb培養員工的重要途徑。

另一方面,alok強調,airbnb又是一家非常重視名額和目标驅動的公司。關于第二條公司文化準則,alok強調了airbnb在做商業決策時,是極端的量化和目标驅動的:

“我們所做的一切事情都是深思熟慮的,非常量化的,也是精準集中在我們的目标上的。”

這裡傳遞的資訊是,airbnb已經,至少部分地對它的資料科學團隊的品質做出了承諾,擺在首位,作為一種實施它的研究驅動的行為模式的方法。

在我們接下來的談話中,alok與我分享了airbnb的資料科學團隊如何取得成功,建立凝聚力,為自己和使用者獲得更好的結果。珍惜員工福祉與量化驅動決策這兩個方面齊頭并進,通過這樣周到細緻的定位,很明顯,二者的珠聯璧合使airbnb的獲得了進步。

建立規模化的知識分享生态系統

在airbnb,生産力和創新嚴重依賴于知識共享。alok帶領我參觀了他們的努力集中的三個領域:流程管理,資料在組織内外的普及和可循環利用的研究。

alok描述了airbnb如何重金投資資料授權團隊,來開發整個組織的流水線、标準流程。其中包括查詢工具,如airpal和airflow,通過程式性的任務編寫、計劃和監控來實作資料的流水線管理。

Airbnb資料科學團隊進化論:如何由内而外實作資料驅動

 airbnb的開源資料工作流程管理工具airflow

本着回饋開源社群的精神,airbnb去年将airflow進行了開源,迄今為止,有46家公司用它來管理自己的工作流程。

意識到資料的可及性是實作名額驅動的商業決策的必由之路,airbnb也開發并開源了資料可視化工具caravel。平台允許使用者在拖拽的環境下探索資料。

Airbnb資料科學團隊進化論:如何由内而外實作資料驅動

 airbnb的開源資料可視化平台caravel

最後,alok取笑了另一個即将要開源的工具。與kaggle的新開放資料平台相比,他稱airbnb的知識分享工具為“遊戲更換”。github式的存儲,目前尚屬内部使用,允許使用者從頭到尾把分析寫在上面。

Airbnb資料科學團隊進化論:如何由内而外實作資料驅動

在知識分享的諸多好處中,除了支援可再生研究,避免重複代碼,知識分享工具解決了發表偏倚的問題。發表的研究是專門挑選的,可能是因為有吸引人的或者驗證性的陽性結果。在引進知識分享之前,alok記得2年前他加入airbnb時,知識還是“部落性”的。

“我必須知道正确的人,然後走過去對他說,‘你好,請問你是否編寫了這個程式?到底發生了什麼?’” 

現在,相比較運作a/b測試和把無效結果抛至所謂的“檔案櫃”(或郵件附件)中,airbnb的資料科學家花費少量有價值的額外時間像寫更正式的代碼一樣記錄他們的實驗。alok說在資料科學家的工作中,搜尋知識文章的最終能力對于提高可進入性具有更大的影響。

alok舉了一個關于知識文章能産生差異的具體例子。他的團隊曾經想要運作一個可以影響使用者預訂住宿的實驗。

“事實證明,我們3年前運作這個實驗,它花我們9個月時間運作。我們隻需要讀取文章便能知道答案,而不是重新運作它。”

特别是小型團隊,alok給出的建議是“不要試着自己建立每件事物,現在有許多開放源碼工具。用他們作為開始吧。”他甚至用kaggle kerneis舉了一個例子,闡述道“我認為它是一個很好的共享分析工具。”

多種觀點與資料科學的未來

airbnb房主已經遍及191個國家的34000個城市。建立一個歡迎不同文化背景的人的平台,需要這個公司對員工做内部投資,建立一個強大、多元化團隊。 在資料科學和工程學領域,許多公司沒有對它們的使用者做出必要反應,這對他們是非常不利的。在最近一篇發表在airbnb工程部落格上的文章表示,airbnb資料科學家riley newman和elena grewal說,公司正在努力解決多元化的缺失,alok認為這是資料團隊今年最主要的問題。

alok主張,對于任何問題,識别是airbnb解決問題的第一步,從這個觀點考慮,他們的資料引導理念已經使他們有所提高。多元化團隊的優勢是無可争議的——

“毋庸置疑,增加多元化能提高我們分析的标準,提升我們作為一個資料科學團隊的影響,并增強我們向彼此學習的師友關系。”

“在過去的一兩年中,我們已經看到了在進步中産生的影響[…]。通過一個更加多元化的資料科學團隊,我們已經加深了合作關系,并作出了對這個組織的更大貢獻。”

總的來說,airbnb的資料團隊無疑地、積極地影響着他們的使用者。alok舉例說:

“我們有更多的假設來自這支團隊,如什麼能引導更多人的參與度[…]什麼能帶來更大的實驗多樣性。”

對于建立一個多元化團隊,最具挑戰的障礙之一是首先要了解多元化意味着什麼。alok對比多元化招聘的“良性循環”公司與 “惡性循環”公司,發現他們首先在識别階段便存在差異:

“如果你自己不夠多樣的話,那更不可能雇用多樣的人,因為你會雇用那些像你自己的人。你會因為地區局限而亡,因為應聘者都以看似相似且正确的方式表現和進行面試。”

他對團隊的建議是,面對問題的時候要深思熟慮,這與“不平衡分類”的理論相違背。他舉了一些例子,如隐藏應聘者的姓名和性别,并且在現有專業領域以外花費更多時間發掘應聘者。事實上,alok把他們近期的招聘競争作為airbnb如何将其努力展現在公衆面前的一個例子。

“你不得不說,‘我将花時間試着去找到那些跟我現有團隊截然不同的人。’這并是順其自然就會發生的事情。你必須經過深思熟慮,并且需要投入時間。”

目前,不同領域的資料科學專家和機器學習專家正在進入這個産業。從實體學家到生物學家,教育是一個次元,但它現在不是吸引多樣人才的挑戰。是以,alok表示,希望資料科學或機械學習的學位不會成為應屆生進入這個領域的阻礙。

盡管被一個像airbnb這樣的資料團隊雇用仍然任重道遠,但是沒有理由喪失信心,因為alok對于有抱負的資料科學家最好的建議是獲得“盡可能深入和肮髒”的資料。是以,在允許必要的機器學習和資料分析動手實踐上,開源資料具有改變能力。他還提倡,掌握ipython和r的應用,有助于專注深入了解資料和了解整理混亂資料的意義。 

那麼,這對你、你的團隊或是你的公司,意味着什麼呢?跟随airbnb的步伐,首先開始關注公司内在。通過做有目的、以資料為引導的決策,公司以多種方式衡量它的團隊、知識和進步,這已經超出了組織本身。

原文釋出時間為:2016-10-10

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号