一、楔子
大資料傳統企業實施,其路漫漫,絕不會如昙花一現,探索大資料在傳統行業的實施之路,尋找一條适合傳統行業的企業大資料實施方法體系,是我執着堅守的信念,大資料是一種信仰,吾将上下而求索。記下項目中的點滴,算是日志,自勉。
二、項目背景
最近在處理一個商業銀行的大資料項目,旨在建構大資料資源池,項目邊界确認過程中,針對項目的定位出現了兩種不同的觀點,對大資料的在傳統行業的應用有了新的啟發。觀點一、大資料作為操作資料曆史庫,存儲操作資料庫資料,提供曆史資料長周期,快速檢索的曆史資料存儲和快速查詢服務。觀點二、大資料作為資料倉庫的的曆史庫,解決資料倉庫曆史資料存儲的問題,建構一個大容量,高可用的資料存儲平台,為全量資料分析和知識挖掘提供服務。作為操作資料庫的曆史庫,已經完成了項目的實施,但是作為資料倉庫的曆史庫之前的定位一直是取代,基于大資料做資料分析和知識挖掘,現在卻找到了一個新的切入點,才發現,原來二者并不沖突。
三、資料倉庫與操作資料庫
資料倉庫的定義并無統一的說法,通常的到人們認可的概念是:一個面向主題的、內建的、時變的、非易失的資料集合,支援管理者的決策過程。簡單點說資料倉庫就是一種語義上的資料存儲,它充當決策支援資料模型的實體實作,并存放于企業戰略決策相關的重要資訊。
資料倉庫不同于操作資料庫,操作資料庫的主要任務是執行聯機事務處理和查詢處理,稱作聯機事務處理(oltp)系統。資料倉庫系統在資料分析和決策支援方面為使用者或者機器學習提供服務,即聯機分析處理(olap)。二者的主要差別在于五個大的方面:
1)使用者系統的面向性:客戶與市場;
2)資料内容:目前與曆史;
3)資料庫設計:er與面向主題
4)視圖:目前與全景
5)通路模式:原子事務與隻讀操作
傳統模式下資料倉庫伺服器通常采用關系型資料庫,也就是說從軟體實作的角度,資料倉庫和操作型資料采用的模式是一樣的。這就決定了,資料倉庫和操作資料庫面臨同樣的問題:行業壟斷帶來的成本依賴、資料模型帶來的存儲瓶頸和運算瓶頸。
資料倉庫的三層架構如下圖所示:
四、大資料的位置
資料倉庫系統應用大資料技術的模式還在探索,但是目前總結了幾個方面的應用。
1)大資料作為資料倉庫的曆史資料存儲系統:解決資料倉庫隻能存儲短時段資料的問題
2)建構基于大資料平台的資料模型,緻力于低成本的資料挖掘體系:傳統bi的瓶頸在于軟硬體綁定、商業壟斷和處理性能,基于但資料開源體系的算法模型和并行計算能力,建構全量的資料分析和挖掘,最終目标在于取代原有高成本的bi體系,為企業降低負擔。
3) 實時+離線模式的确立,可以充分利用企業已有的it資源設施,充分利用成熟的bi技術,進而為企業提供更好的服務。
五、遺留問題
大資料定位為離線的資料倉庫,将會出現三級資料存儲模型,實時操作庫-資料倉庫-大資料資源池,目标有定位已經明确,但是具體實施仍要探索,未完待續...