本節書摘來自華章計算機《企業大資料系統建構實戰:技術、架構、實施與應用》一書中的第2章,第2.1節,作者 呂兆星 鄭傳峰 宋天龍 楊曉鵬,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
第1章我們介紹了企業大資料在宏觀和微觀層面的定位,立足于解答企業大資料的商業模式、市場機會、延伸價值、内部功能定義等問題。當企業已經确定要實施大資料戰略時,應該如何針對性地建立職能架構體系以保證企業大資料的有效實施和落地?各個職能部門的職責範疇如何定義?不同體系和部門間如何協同和流程化工作?
本章将詳細講解企業大資料職能規劃體系,包括如何定義大資料部門在企業中的角色,常見的大資料職能及職責分工,不同職位的職責劃分以及大資料制度和流程建設等問題。
要建立适合企業的大資料組織架構,首先要明确大資料部門在企業中的角色。不同的角色對應到企業内部會有不同的架構方式和職能定位。
大資料部門泛指大資料中心、大資料部門、大資料組甚至是個體員工,它代表一類群體的角色扮演。按照大資料部門在企業中的不同角色和存在特征,可比喻為以下四類:路人、侍從、燈塔、先知。
路人是指大資料部門處于企業邊緣,其存在屬于可有可無的境況,這是一種危險的企業處境。
目前很多企業的大資料部門都處于這類角色中,其實質是由于企業主觀上對資料不敏感、不聽、不信以及缺乏資料工作文化等原因,以及客觀上缺乏有效的流程和制度限制、有經驗的資料從業人員以及有價值的資料産出,導緻大資料部門的存在與否無關緊要。
這類角色通常在企業中有以下幾種行為和職能特征:
資料部門的職能定位不清晰,發展規劃不明确,部門建設毫無方法可言;
缺乏有效的資料工作目标和資料價值産出;
資料工作從未參與企業營運落地環節,更無法滲透到企業核心業務流程;
資料部門缺乏“大上司”,無法直接跟企業c-level的上司層進行彙報;
資料部門通常都是由個人或少數員工從事,甚至由營運人員兼任。
對于大資料部門是否處于這種狀态,通常隻需回答一個問題:“如果沒有大資料部門,企業會損失什麼?”如果無法準确回答或含糊其辭,那麼這個答案就是肯定的。
侍從,即随從侍奉,這展現了大資料部門角色定位于企業輔助層面。侍從的角色相對于路人有明顯的提升,該角色已經處于有明确工作需求的狀态;但與此同時,大資料部門的這種狀态也存在明顯的問題:缺乏獨立和自主性,侍從從來都不會自己決定去做什麼,而是等待被配置設定工作和任務。同樣,在企業中的大資料部門也無法決定企業在業務層面應該做什麼、怎麼做等問題。這種角色通常提供的職能包括如下幾個方面:
(1)資料管理
資料管理工作包括:資料配置管理、資料權限管理、使用者權限管理、資料導入管理、資料導出管理。
資料配置管理:主要進行資料存儲、安全、排除設定、并發控制、程序控制、結構控制等管理工作。
資料權限管理:主要進行資料儲存、新增、删除、更新、備份、合并、拆分、導出、列印等管理工作。
使用者權限管理:主要進行使用者新增、删除、重置、過期設定、共享、安全等管理工作。
資料導入管理:主要進行資料導入格式、時間、條件、規則、異常處理、記錄數、來源等管理工作。
資料導出管理:主要進行資料導出格式、時間、條件、規則、記錄數、加密、位置等管理工作。
(2)資料查詢
很多企業的資料都在it中心進行統一管理,而大資料部門也屬于it眼中的“業務部門”。由于大資料部門天生具有接觸資料和處理資料的需求,是以很多時候也會被開放某些附屬庫、從屬庫或複制庫的權限。某些情況下,大資料部門也會承擔類似“取數”的功能,這類需求在某些情況下會頻繁發生,例如:
大型活動之後,沒有資料權限的業務部門可能會發出“看結果”的需求;
當出現意外營運情況時,業務部門也會想要“先看看資料”;
做年度、季度、月度和周度等計劃性的總結及規劃時,業務部門也會想“參考下資料”;
規律性導出的日報、周報、季報、半年報、年報的詳細和結果資料。
限制業務部門的“取數”權限從企業宏觀來講利于資料安全把控,這是實作資料安全的途徑之一。但從整體來看,如何平衡安全和工作效率,并釋放人力和時間資源到更好的工作或項目機會上,需要進行權衡。畢竟,資料安全不隻有權限控制這一種方法,而且隻有這一種方法也無法完全保證資料安全。
(3)資料校驗
這裡的資料校驗是指用一定的方法保證多資料源之間的完整性、一緻性、準确性、及時性和有效性。
資料校驗通常存在于大型企業中,這類企業往往存在多平台、多系統、多生産環境和多測試環境,此時如何保證多個系統對于同一業務主體的測量滿足上述條件就要通過資料校驗工作來實作。
資料校驗(某些公司也稱為資料治理)是保證和提升資料品質的重要步驟之一,如果該過程缺乏有效執行,将很有可能導緻“rubbish in,rubbish out”的局面,後續所有資料工作的價值将無從談起。
(4)資料統計
大多數日常報表需要通過技術開發形成産品報表體系,以提供日常業務支援。當有突發性事件或活動時,需要人工整理和彙總報表。日常報表完成後,通過自動發送郵件或短信、線上通路、離線用戶端通路等接入。
根據資料日常報表提供頻率和周期不同,日常報表可分為日報、周報、月報、季報、半年報和年報。報告内容因公司需求而異,但基本架構是統計周期内企業整體、各營運環節kpi陳列、對比和簡單分析,目的是通過周期性資料進行業務診斷,發現業務效果趨勢和異常點,為業務優化執行提供基本支援。
根據資料日常報表支援對象在企業内部分工不同,日常報表可分為針對決策層的報表和針對執行層的報表。針對決策層的報表側重于宏觀的、整體的效果彙總和結果分析,借助對比、趨勢和主要次元下鑽等方式進行初步分析并定位結論和問題點;針對執行層的報表側重于微觀的、個體的效果分析,各業務執行層隻針對各自業務次元進行分析,并提供實際可行的操作型建議。
對于資料名額的設定,既要包括公司核心結果名額如利潤,又要包括各個業務節點的過程類或間接輔助類名額,以更全面地評估和定性整體及各業務線的工作結果。
燈塔意味着企業的工作方向或職能開展需要大資料部門進行指導,此時大資料部門承擔着以下三類角色和功能:
剖析過去。對過去所發生事件的原因進行剖析,找到影響全局或特殊事件的關鍵因素并加以提煉以形成優化或改良機制;找到資料中的頻繁規則并提煉出可供現在或未來使用的業務方法;從海量資料中發現資料知識,并能通過知識來引導業務行動或進行業務優化規則的啟發。
監控現在。對資料實時的監控和回報通常是大資料部門的必備職能之一,資料回報的實時性通常對于線上活動影響極大,無論是基于預測的、異常波動區間的還是資料分布模型的監控方法,隻要能快速、有效并且準确地告知業務主體目前發生的問題,并配合業務一起剖析問題,盡快解決類似于流量作弊、黃牛訂單、惡意注冊、虛假投資、騙保等問題,能為企業節省大量時間、資源和項目等成本支出項。很多時候,時間就是機會,而時間也是最大的成本。
預測未來。基于曆史情況對未來的事件預測意味着業務在開展行動之前需要有明确的目标導向,基于目标可以制定明确的kpi、比對為實作目标所需要的資源、預估行動成本和收益、平衡不同項目的機會成本和對企業整體戰略布局的影響。
大多數企業中的大資料部門都有類似于資料挖掘、資料分析、專項分析類的職責,這類工作的核心價值通常不是産生多少模型、幾種算法、多少報告等,而是直接對于企業整體銷售和利潤的提升,或在保持相同銷售和利潤水準下對成本的控制和縮減。當然,某些企業内部會由于各種原因,比較注重知識産權、專利申請、科學研究、學術報告和期刊等的影響力,這些視具體情況而定。
這類角色通常通過一定的模型、算法、流程和機制對資料進行解析,大多數的工作都是通過專項資料挖掘或分析的形式開展。
資料專項挖掘分析是指針對某一特定課題或需求,采用專項分析或長期課題分析的形式對資料進行深入挖掘和分析,以提煉出相應結果或方法論供業務參考或使用。資料專項挖掘分析是資料發揮價值的重要手段,更是資料輔助支援作用的關鍵,大多數公司的資料工作意義都來源于此。
為了提高資料工作的針對性,資料專項挖掘通常按業務子產品劃分,常見的資料專項挖掘分析子產品包括市場分析、營銷分析、營運分析、會員分析、使用者體驗分析、銷售分析、移動分析、o2o分析、庫存分析、供應鍊分析等。不同分析子產品課題依業務需求而定。
在上述三類角色中,我們讨論的知識前提都是資料依托于業務主體開展工作。但無論開展的工作是預測性的、剖析性的還是知識挖掘性的,可以說沒有業務就沒有資料發揮作用的土壤,更無法落地應用和實施。是以,從某種程度上看,資料是一定要依托于業務主體而存在。那麼資料真的隻能處于依托作用或依托于業務而存在嗎?
在大資料時代的當下,身邊所有媒體所産生的任何屬性、行為、結果等都可以通過一定的形式進行記錄。現在除了傳統的結構化資料外,還包括半結構化和非結構化的資料形式或類别,例如日志、文本、視訊、語音、圖檔、文檔、xml、html等。這些資料形式或狀态可以被人類識别并加以有效分析、整合和利用,既然人類可以做到,那麼理論上在一定條件下計算機也有機會這樣開展工作。
人類開展工作的前提是從出生開始便不斷接收外界各種資訊源的刺激和學習,相對的,計算機所能接收到的資訊相對于人類接收到的資料和信号而言,都是碎片化并且微乎其微的。基于計算機視覺、模式識别、自然語言處理、機器學習、深度學習等領域的人工智能正在被人們進行廣泛的研究。假如通過一定途徑将人類接收到的所有資訊都能傳遞給計算機,那麼計算機便可識别、加工、分析、應用和預測這些信号。是以,解決了這些問題之後,計算機智能便可脫離業務主體而存在,甚至在一定程度上,它可以創造業務、思考業務和優化業務并找到最優化方法進行求解。
目前,這類角色在企業和社會中還沒有大規模的綜合性應用案例,但在很多垂直領域中已經有所突破,例如機器翻譯、語音識别、圖檔識别、自動規劃、智能無人汽車、智能博弈等;而在學術和知識研究領域也有各自陣地,包括深度學習、神經網絡、機器學習等。未來,資料的價值将借助于傳感器、海量資料、資料推演的模型和算法、自動程式設計、自動控制以及硬體內建等方式獨立開展行動。
常見的大資料組織架構分為四種類型,根據不同公司的性質可分為分散型架構、集中型架構、複合型架構和矩陣型架構。
在分散型資料架構中,資料作為單獨的部門位于各個業務中心之下,職責是提供本中心的資料支援。如圖2-1所示,營銷中心、營運中心、會員中心和it中心都有自己的資料部門,各個部門互相獨立。
分散型資料架構常見于企業建立資料體系的初期,初衷是先将資料置于某個中心之下,待資料工作正常開展并卓有成效之後,再在其他部門成立資料部門并輔助業務工作。
分散型資料架構下,各大資料部門的職責是高度相似的,包括:
營運業務資料統計;
使用者體驗、seo、使用者研究等通用方向的分析;
各自業務中心業務活動效果分析;
關鍵業務項目的資料挖掘和分析;
資料報表和資料産品開發(主要是it中心的大資料部門);
機器學習算法實作和內建(主要是it中心的大資料部門)。
這種資料架構的優勢非常明顯:前期投入較小,隻需人員成本和極少的系統成本便可開展工作;資料從業人員由于處于業務工作體系内,對業務熟悉度較高,資料落地價值更大;另外,相同體系下的各個部門協同工作效率更高,利于業務方資料了解和執行。當然,這種架構的缺點也是顯而易見的:
資料品質難以保證。各部門資料來源分散且不完整,資料品質難以保證,基于未知品質上的資料結論可能無法立足。
資料共享困難。不同資料部門之間的資料孤立還會導緻資料孤島的出現,不同的思維方法、工作機制,甚至定義方法不同導緻資料源和資料結果無法流通、共享和綜合應用。比如,對于轉化率的定義方法,可能有訂單/uv、訂單/通路、訂單客戶/uv甚至件數/pv。資料共享困難一方面可造成資料價值難以最大化傳播,另一方面在同一個資料項目的處理上也造成重複的人力、時間和物力投入并導緻資源浪費。
資料結果混亂。由于資料來源不一緻或同一來源下定義口徑的不同,各個業務部門彙報結果可能存在資料出入。這會影響決策層對業務結果的判斷,同時影響資料的可信度。
難以形成合力。各部門基于自身需求搭建支援體系,不同部門間難以形成合力共同搭建對全公司服務的資料支撐點。
集中型資料架構與分散型資料架構相反,它是把所有的資料工作彙總到一個中心集中統籌規則,通常該中心是資訊技術中心或it中心。圖2-2為典型的集中型資料架構圖。
該架構下由于所有的資料都集中到it中心,是以大資料部門工作職能高度集中,主要包括:
異構資料和主從資料的校驗;
資料統一管理和權限管理;
資料報表開發和産品開發;
根據業務需求的資料抽取;
機器學習算法實作和內建;
針對各業務線的資料分析。
這種資料架構體系有效地解決了資料源不一緻和資料口徑定義的問題。由于所有資料從生産到應用都由該中心統一負責,資料品質度較高。這種資料架構的主要問題是業務了解與支援較弱:
業務工作流程複雜。所有業務中心的資料需求都需要經過該中心處理,需求溝通、确認、實施、回報的流程較為複雜,影響業務對資料需求的積極性與主動性。
業務了解度不夠。在該中心統籌下的資料體系,附帶了技術的思維方式和工作方式,對業務的了解程度低,使得資料難以落地應用。
技術響應及時性差。該中心的部門都有各自的工作計劃和排期,業務方多而雜的臨時需求影響其正常工作,大量需求可能被積壓甚至無限延期。
為了解決集中型資料架構帶來的業務應用問題,行之有效的一種方法是派駐資料分析師入駐到各個業務中心。這能在很大程度上緩解技術類中心“不懂業務”的被動局面,但對資料分析師個人素質和能力有較高要求:
紮實的基本資料素質。分析師需要具有紮實的基本資料素質,能及時、有效、準确地解答業務資料問題。
良好的個人時間把控能力。由于身處業務中間,分析師會面臨很多臨時需求,包括咨詢、取數、分析、報告等,這就要求分析師具有良好的個人時間管理素質。
完善的工作流程和機制。流程和機制可以使各項工作有據可依,過濾無效需求的同時保證資料安全性、有效性、及時性和落地應用價值。
上述方式可以有效保證資料品質和業務應用效果,但同時我們需要考慮資料之外的問題:如何管理分散到各個業務中心的分散人員?如何協同各部門工作?如何避免交叉管理問題?
在集中型資料架構下,分散到各業務中心的分析師的組織架構仍然屬于技術中心。
複合型資料架構是建立在分散和集中基礎上的複合組織架構。資料端集中到統一中心之下管理,該中心通常是it或資料中心;業務端分散到各業務中心之下設立資料支援部門,如圖2-3所示。
複合型資料架構既能保證資料的品質标準化,又能保證各個業務節點的資料落地應用,同時還可以結合各業務共同需求以及公司戰略發展需求開發全局應用的智能産品。不同中心間的分工如下:
(1)it/資料中心
it/資料中心的資料職能是對接全公司所有業務進階需求,統籌整體并進行相關資料産品開發:
統一口徑。資料源的定義、資料出口和抽取邏輯的統一、資料名額和應用場景的規範等。
搭建平台。經過整合和清洗的幹淨的資料源甚至資料平台、報表可視化等。
智能資料産品開發。自動化資料挖掘模型封裝和開發、bi、個性化推薦等。
對接業務中心進階需求。深度資料源抽取和應用、資料模組化和挖掘技術支援等。
資料技能教育訓練。提高業務資料應用能力和素養,包括知識、技能、素質、最佳實踐場景推廣等,涵蓋資料知識、資料應用和工具使用知識。
(2)各業務中心
各業務中心除對接各自中心的需求以外,還需要與it/資料中心協同工作:
根據資料中心的統一規範,制訂适合本中心的資料應用場景、名額和分析體系等;
收集各自中心的零散需求并回報到it/資料中心,參與it/資料中心公司級資料産品開發和應用,參與環節包括底層收集、資料etl、資料模組化、資料可視化、資料智能應用等——該項工作是資料協同工作的重要産出。
矩陣型資料結構常見于第三方服務或外部服務公司,屬于項目管理類企業的常見架構,對于這種企業而言,項目制的工作方式是企業業務運作的基本模式,如圖2-4所示。
這種模式或職能結構具有以下特點:
所有大資料項目都有直接項目負責人,該角色可能是項目經理也可能是項目總監,具體視項目重要性而定。
不同項目間通常互相獨立,可獨立核算成本和利潤,這使得所有項目可衡量、可優化和可改進。
業務動作以項目為導向,除了企業管理類部門外,其他所有的職能部門都是為項目提供服務,支援項目工作的有效開展。
公共資源池的有效利用:項目間的資源利用可以從公司整體統一排程,通常以設立資源池作為調用出口,所有項目資源(人力、裝置、技術、産品等)使用完成之後可快速回收并調配到其他資源中。
項目間的資源流通性提升:不同項目間雖然獨立營運并參與核算,但資源也可以互通使用,這會利于保證有效資源的有效調節和最大化使用。
大資料項目管理中心統一協調:作為所有項目管理的樞紐,該角色承擔的項目工作包括項目擷取、組建、管理、營運、重組、回收、調節等,整體把控性更強。
這種整體與局部的有效統一使得所有的大資料工作環境都相對可控,利于企業利益最大化,但同時也存在一些不可避免的問題:
員工缺乏歸屬感:大多數參與項目工作的員工,通常需要駐紮在客戶陣地前線,這使得項目完成之後員工需要根據下一項目需求排程到其他項目中重新投入工作。很多情況下可能會到全國各地做項目,導緻員工很難産生歸屬感,容易造成員工流失。
企業人員有效管理問題:對于大多數項目工作制的勞動方式而言,大多數時候都在“甲方”工作,這使得員工的“工作過程”很難把控,是以大多數項目員工會以項目傳遞成果作為考核依據;除此之外關于員工的費用、社保、教育訓練、晉升、彙報、福利、知識等所有問題由于缺乏有效的基于地理位置的管控,隻能通過線上系統開展并需要依靠公司制度限制,這些都會對員工管理造成困擾,員工越多管理難度越大。
員工成長問題:處于項目工作中的員工,在不同項目中扮演的角色是類似的,應用的技能也基本類似。技能的成長通常隻能由生到熟而遇到技能瓶頸,職業通道和發展路徑上又受到項目的限制而缺乏其他管理類經驗,是以“天花闆”問題比較突出。
企業文化培養問題:由于員工長期處于“甲方”工作狀态,企業内部工作文化很難進行有效落實,并且項目内員工的問題也很難通過正常管道回報到企業工作流程和機制中,通常項目經理或項目總監就是一個企業的“小老闆”。
對于矩陣型的大資料工作架構,不同部門間的職能配置設定如下:
(1)大資料項目管理中心
核心職能:
資源管理:根據公司項目開展需要,建立和健全項目資源管理制度,實作公司所有資源在項目内的總體協調與排程最優化,以保證資源效率最優、利潤率最大。
項目管理:組織和策劃公司項目招标、計劃實施與協調,確定各項目的有效推進和落地。
品質管理:制定施工方案、品質工作标準和驗收标準,組織品質管理教育訓練、逐漸推進項目活動全過程的品質管理工作。
費用管理:組織實施工程項目管理的項目經理責任制和項目成本核算管理。
監察管理:對各項目中可能存在的影響公司整體利益的外包項目分派、内部資源的外部利用、項目違規操作、個人邊緣利益以及其他違反公司規章和制度的監督和管理措施。
非核心職能:
知識管理:針對項目實施過程中遇到和應用的場景、行業、案例、模型等知識物料進行統一彙總和管理,形成可供企業所有項目參考的知識庫,最終根據企業市場形态建立針對性的解決方案。
教育訓練管理:項目招投标、實施、驗收等過程中所需的各種技能和職業素養要求的教育訓練,重點在于滿足項目工作需求,是對普通職業技能的拓展。
人員管理:項目工作中所需人員的管理,包括組織規劃、人員選聘和項目核心骨幹建設等一系列工作。
檔案管理:建立和完善項目資訊、檔案資訊制度,組織和指導建檔工作并及時彙總和更新檔案資訊。
大資料項目管理中心和各項目中心的職能中,除資源管理和項目管理外,其他職能可能會根據公司實際營運情況有所差異,某些公司甚至會采用各項目組獨立核算成本的方式。
(2)各項目中心
範圍管理:為實作項目預期目标,對項目的工作範圍進行管理的過程,包括範圍的界定、規劃、調整等具體工作。
時間管理:為確定項目傳遞時間而進行的一系列管理過程,包括具體項目實施的規劃,實施過程界定,項目細分内容優先級評估、時間估計,項目進度控制,周期性監察,進度報告等各項管理工作。
成本管理:在保障項目傳遞的前提下對實際需要的各種成本、費用的管理過程,包括軟硬體資源的配置、調整,彈性解決方案應用,項目内費用審批及控制等各項工作。
品質管理:為達到項目傳遞約定的品質要求所實施的一系列管理過程,包括品質規劃、品質控制、品質驗收和品質保證等。
人力資源管理:項目内的人力資源管理通常是對于項目内部人員的工作職責、範圍的調整,以及為最大化人力資源産出而實施的工作時間、效率和結果的一系列管理措施。
風險管理:對項目工作過程中涉及的可能會影響項目傳遞時間、傳遞品質、傳遞數量等傳遞成果的各種不确定因素的識别、量化、規避和控制等管理措施。
很多公司為了避免項目的失控并保證公司利益最大化,都會設定項目内的雙管理(兩個項目負責人)檢查的制度,這樣不但可以保證各利益方互相監督,同時又能最大限度地避免利益主體抱團。