天天看點

愛奇藝資料中台建設方案

愛奇藝資料中台建設方案
愛奇藝資料中台建設方案

本文主要内容包含以下幾部分:

愛奇藝資料中台的定義:中台建設、Pingback體系、數倉體系、數倉平台、離線數倉架構、大資料平台、資料平台架構

一、資料中台的産生

:資料工作是一個專業性特别強的一個工作,對于人員的要求比較高。

:在使用資料過程當中,口徑不一緻是特别常見的一種問題,這種問題可能會導緻一種資料使用和分析的差異,而且會降低業務的資料分析效率。

:在生産過程中,降低業務的資料分析效率,最終會對業務決策造成嚴重的影響,不僅資料鍊路過程很長,其中還會引入很多資料品質問題。

:因為缺少一個統一的資料建設的規劃、标準和規範,是以難以指導各個業務或者整個生産鍊路的各個環節,以擁有一個标準化的生産和處理過程,就導緻了多個業務的資料難以融合,難以發揮更大的資料價值。

:如果有新的業務接入或者新的場景需要使用資料,很多工作都需要人工處理。去申請各種資源、權限、找資料并且串聯整個資料的采集、生産、計算、同步和展示等各個環節,這是一個耗時長、效率低,最終還是很容易出錯的過程。

:說到資料的話肯定離不開投遞,投遞是用來記錄使用者行為的一連串的資料資訊。如果投遞過程缺少标準化或者流程管控的話,都會導緻投遞品質比較差。:資料的生産到最終使用,中間可能要經曆一個比較長的時間周期或者一個比較寬的團隊跨度,使用者可能無法很快地找到想要的資料,或者資料團隊生産出來的資料并沒有真正觸達到業務,來達到它的資料價值。

:這個點可能和擷取資料難有一點點關聯,資料資産模糊的話更多的是在說需要對公司的資料資産做一個整體的管理,如果沒有這個整體的管理,就會導緻對資料資産的級别和擁有什麼資料資産都很模糊。最終就是導緻資料的優勢難以發揮出來,而且雖然耗費了很多計算資源、人力資源、存儲資源,但沒有帶來相應的價值,最終導緻資源效率極低。

資料中台更像一種企業架構,是一套結合網際網路技術和行業特性,在企業發展的不确定性中,尋找确定性,并且持續沉澱和抽象企業核心能力,最終支援企業快速、高效、低成本進行業務創新和增強的企業架構。

1、了解資料中台

愛奇藝資料中台建設方案

大家平時更多用到了大資料叢集,也就是說Hadoop、Spark、Flink以及其他OLAP工具。但是這些隻是資料背景的一個概念,并沒有做成一個标準化、通用化、門檻相對來說比較低的中台化的概念。 

資料前台:分析體系,比如說使用者分析、内容分析、業務報表等;

是以資料中台抽象出來,就是指“平台+服務+資料+标準化”的概念,它是将資料的生産、收集、處理、存儲和服務進行封裝,并且面向不同層級的使用者提供不同的服務形式。2、資料中台的發展曆程

愛奇藝資料中台建設方案

4、資料中台的定位

愛奇藝資料中台建設方案

三、愛奇藝資料中台建設

資料,也就是統一數倉的體系,是資料的核心;

有一線開發、對應的運維管理、實時開發對應的運維管理,以及資料治理、資料圖譜、資料服務和即席查詢。即席查詢是我們資料服務裡的一個子項,但是因為應用面比較廣,就單獨拎出來了。

數倉在提供資料本身的能力之外,還要維護整個公司級别的名額體系和統一次元,讓所有的資料系統平台和都會對接到統一的次元名額體系。而且,為了幫助數倉建設過程中的資料模組化和統計名額的管理,建設了一個對應的資料平台,也是按照資料規範的标準建設,以此來支援使用方使用平台依照規範去建設數倉的流程化工作。

投遞工作面臨的問題主要有以下幾個點:

愛奇藝資料中台建設方案

數倉體系幾個要解決的痛點:

愛奇藝資料中台建設方案

數倉平台主要是為了做業務模組化、資料模組化、實體模組化、次元管理、名額管理和數倉管理。

愛奇藝資料中台建設方案

資料表建立的限制性:資料資訊的可描述性:資料模組化體系的完整性:

5、離線數倉架構

愛奇藝資料中台建設方案

愛奇藝大資料平台經曆了五個階段:

運維:品質:資料使用也是一個資料發現的過程。治理:是以愛奇藝采取的方式是,等業務發展到一定程度,再去補充資料治理的能力,對存量去治理,對增量去管控。治理工作的内容主要包括對資料和任務進行日常審計,然後通過資料血緣和使用情況,對資料的備援度進行有效評估,并進行相應的優化,以減少資源和人力的浪費。

計算層,更多的是大資料叢集服務,也包括一些任務排程能力。

資料中台的應用場景,面向不同階段來提供不同的接入方式:

第二個階段是個性化的能力。把整個流程确定下來,業務在使用過程中可以針對某些環節做定制化的開發,拓展現存資料子產品的能力來滿足一些個性化需求,是以它更适用于業務的成長期的階段;識别下方二維碼,回複“資料全集”,即可獲得下載下傳位址。

愛奇藝資料中台建設方案

繼續閱讀