天天看點

袋鼠雲資料中台專欄2.0 | 資料中台之資料源

袋鼠雲近兩年來,先後為國内數十家大型龍頭企業提供資料中台咨詢與實施落地服務,積累了大量的實戰經驗,同時也在為客戶服務的過程中,不斷完善和升華自身的資料中台理論體系和實踐方法論。希望通過後續文章的分享,與諸位讀者交流,共同加快企業全面資料化程序。

本專欄每周更新1-2篇,敬請期待~

資料中台之資料源

資料産生

袋鼠雲資料中台專欄2.0 | 資料中台之資料源

當今企業在發展和經營的過程中,「資訊化」早已是建設标準,在企業運作的過程中,或多或少地,積累了很多資料。在進入到DT時代,資料成為企業未來成長的引擎也越來越被認可。有先見之明的企業更注重于從方方面面來收集各項資料。我們今天的話題就以資料産生和資料内容加以介紹。

企業的資料産生我們按照主動和被動原則來進行劃分:

  • 被動資料:為企業事務和流程過程産生的必須資料,即我們一般了解的業務系統,以一般型企業為例,CRM系統、OA系統、ERP系統、交易系統等則為被動資料。
  • 主動資料:則是輔助、記錄、日志等非主線業務,需要額外付出人力和成本主動收集的資料,如:網頁通路日志、系統運作日志、監控資料、門店使用者進出資料等。

    下面為資料存在的載體分布示意圖:

袋鼠雲資料中台專欄2.0 | 資料中台之資料源

在IT早期時代,硬體為瓶頸,存儲和計算資源的不足,在建構資料模型的過程中,基本是以核心業務系統(即關系型資料庫)為主,主動資料往往短暫保留或簡單分析後即被丢棄。在進入到雲計算、大資料的時代,存儲和計算的相對廉價,資料的融合和催化效應也越發受到重視,主動資料開始走進公衆的視野,成為資料中台之資料來源不可或缺的部分。

資料分類

袋鼠雲資料中台專欄2.0 | 資料中台之資料源

按來源分類

資料按照來源分類,一般分為資料庫、日志、API、FTP檔案、IoT、埋點日志、網際網路爬蟲等。

資料的來源主要影響後續的資料內建和同步,我們需要以不同的技術手段将其同步至資料中台,以袋鼠雲提供的元件支援如下:

袋鼠雲資料中台專欄2.0 | 資料中台之資料源

上述FlinkX、JLogstash、DT.Trace、DT.Crawl 均為袋鼠雲産品團隊研發的技術元件,支撐袋鼠雲數棧産品體系。

按結構分類

資料按照結構分類,一般分類結構化、半結構化、非結構化三種。

袋鼠雲資料中台專欄2.0 | 資料中台之資料源
  • 結構化資料:一般為二維資料,即行列清晰分明,每一行資料都能拆分成固定的列數,我們日常使用的關系型資料庫(Oracle、MySQL)可以表示和存儲結構化資料。
  • 半結構化資料:一般為Key-Value型資料,資料格式不固定,如常見的Json和XML即可存儲半結構化資料,一些非關系型資料庫(HBase、MongoDB)也能存儲半結構化資料。
  • 結構化資料:即沒有固定的資料結構,如我們常見的文檔、圖像、影音、視訊等。

我們先從資料中台的輸出來看,一般來說都是以結構化資料提供服務,是以在資料清洗的過程中,會将半結構化資料轉為結構化資料,然後再進行模型開發。對于非結構化資料,一般以連結的方式作為某個實體的屬性來進行分析。

按主題分類

在建構業務主題的過程中,我們會對企業的資料按照主題來進行分類。以個人的經驗來看,資料主題一般按照企業業務的核心實體和業務過程來進行劃分。

以電商業務為例,我們一般按照以下八個主題來劃分線上業務:

  • 會員:注冊會員及潛在會員的各種基礎資訊資料。
  • 商品:所有可售賣産品和商品資料,也包括類目、品牌,SPU,SKU等相關商品基礎資訊資料。
  • 交易:交易包含線上從加入購物車到下單、支付、發貨、退款退貨及成功交易各個業務過程
  • 營銷:營銷活動過程中的各個業務過程所沉澱的資料。
  • 管道:包含電商、門店等終端管道的基礎資料及這些終端管道本身的建立、維護、關閉等業務過程資料。
  • 日志:使用者通路所有平台包含官網、微信公衆号、電商平台、App等記錄下的所有日志資料。
  • 公共:包含企業的組織架構、員工、角色以及公共事務。
  • 物流倉儲:商品在倉儲物流配送過程中的各個業務過程所沉澱的資料。

除此之外,企業的線下過程和企業内部業務,如生産制造、供應鍊、組織效能、财務也會認為是獨立的資料主題。

資料主題的劃分,是資料中台規範模組化的重要部分,需要抽象提煉、并且長期維護和更新的,但不輕易變動。在劃分資料域時,既能涵蓋目前所有的業務需求,又能在新業務進入時無影響的被包含進已有的資料域或者擴充新的資料主題。

按模型分類

資料模型表一般分為次元表、事實表、聚合表三種,在一般的資料源中,很少直接存在聚合表的現象,是以我們将資料源按照次元表、事實表來進行分類。

  • 次元表: 次元表可以看成是用來分析一個事實的視窗,次元表的主鍵為對應實體的ID,一般還存在一些實體的屬性和特征說明,不同的次元表之間也會存在一些層級、映射關系。如常見的使用者表、商品表即是次元表。
  • 事實表:事實表其是通過次元、屬性、度量的組合來确定一個事實的,比如通過時間次元、地域次元、路徑成本可以去确定在某個時刻的一些路徑成本怎麼樣的事實。事實表的每一條資料都是幾條次元表的資料和路徑成本交彙而得到的。如交易記錄表、使用者通路行為表就是事實表。以交易表為例整理次元、屬性、度量後如下:
    袋鼠雲資料中台專欄2.0 | 資料中台之資料源

在模型初期的整理過程中,可以用E-R圖來清晰來表達次元、屬性、事實之間的映射和關聯關系,以下為顧客消費商品的示例圖:

袋鼠雲資料中台專欄2.0 | 資料中台之資料源

通過此圖我們能快速了解顧客次元及屬性、商店次元及屬性、以及顧客和商品間發生的消費行為而産生的事實。

後記

本期内容對于資料的來源、分類進行了簡單的說明,由于篇幅的原因未能展開,在後面的章節中,會繼續對資料內建、資料模型、資料計算的經驗和技術來進行介紹,敬請期待。

袋鼠雲資料中台專欄V2.0第八期:

資料中台之資料內建

敬請期待!

轉載自公衆号袋鼠雲。