天天看點

資料倉庫系列之關于資料倉庫自動化技術

  目前市面上的BI工具都在提及靈活BI解決方案。靈活BI解決方案所提供的自動化技術支援主要是從資料源取數到BI前端工具展現。這樣的靈活BI解決方案在企業資料量不是很龐大的情況下,還是很好的支撐運作。PowerBI可以支援大量的資料處理,但是對于硬體裝置的要求也是非常高的。但是資料量變得越來越龐大就會導緻BI報表出現運作緩慢,大屏展現出現資料延遲等等現象。

資料倉庫系列之關于資料倉庫自動化技術

  如果項目較小例如上圖中的動态銷售報告,隻是為了展現EXCEL中少量的資料。使用PowerBI工具完全可以滿足大家的需要。真正要做到靈活BI整體數倉解決方案,還是需要在資料源和BI前端工具的中間加入資料倉庫。在資料倉庫中處理資料對于源資料沒有任何侵入性,也不會對源資料系統造成影響。資料倉庫的搭建可能大家用過SSDT工具應該知道,搭建資料倉庫還是很繁瑣的。搭建資料倉庫還是需要借助資料倉庫自動化工具。

  資料倉庫自動化的工具正變得越來越主流,現在他們明顯的好處:

  1、  快速傳遞

  2、  開發成本較低

  3、  開發周期短對于一個商業智能項目完成,不再需要等待三至六個月。

  4、  維護成本低,無需投入大量的技術人員維護

  市面上已經有的ETL工具具有自動化技術,我在前面的ETL過程和ETL工具介紹已經提及了,這裡就不再做過多的描述。有一些事情你應該知道,評估來自不同供應商的産品的次元。

  一、有些工具資料倉庫的自動化程度較低。

  一些資料倉庫自動化工具就存在不能夠自動化處理模型,大多數開發商在做示例都是使用一個簡單的星型模式報告。這是一個簡單的資料源,但是當你需要将資料從多個資料源整合,事情就變得複雜了。有些工具帶你通過一個錯綜複雜的過程,更新到資料生成星型模式之前結合。這是不是很自動化。資料倉庫的自動化工具應該可以處理70%的工作,而不需要額外的資料模組化工作或ETL程式設計。除非客戶存在定制化的需求,再進行模組化和程式設計。

  二、一些工具需要大量的咨詢工作實作結果。

  問問你的資料倉庫的自動化軟體供應商的這個簡單的問題: “你們實施BI項目有多少實施顧問,實施需要的周期?”一個健全的實施BI項目的團隊,如果已經做到了工具大部分自動化處理。實際具有成熟自動化技術的供應商,他們更多的是在做客戶報表名額的梳理,适配公司模型庫中的名額資料。更多的工作是在前期的需求調研确認模型階段,實施部署BI項目實際是非常快速的。

  三、雪花模型和星形模型

  如果您正計劃建立自己的資料倉庫,那麼你所選擇的資料倉庫自動化工具應該自動執行任何上述的部分或全部。一些資料倉庫的自動化工具仍需要您手動設計目标模型,并用自己的工具來填充它。這不是自動化,你還不如回去使用ETL工具。一個好的資料倉庫自動化工具将自動完成了模型設計和填充它的代碼 。讓你在雪花模型和星型模形之間進行選擇。

  四、目标資料庫的資料倉庫。

  許多資料倉庫的自動化工具限制你隻是一個目标資料庫平台,而其他人将讓你在更多的建立資料倉庫。你可能希望,在未來,移動到不同的資料庫平台(例如,從S​​QL Server到Oracle,或從S​​QL Server到S​​QL Server其他版本),是以你可能需要一個資料倉庫的自動化工具,它為您提供了将來的遷移選項。

  五、排程依賴

  對于任何資料倉庫項目,需要資料在特定的時間,并在一定的順序進行裝載。例如,當來自多個來源的資料相結合,你可能需要有所有加載之前,首先你可以開始建立你表中的資料,而且他們必須更新之前,您可以更新您的星型模型的報告。一個企業級的資料倉庫的自動化工具将了解這些依賴關系,自動執行并自動完成所有必要的流程和正确的順序運作它們。

   六、資料倉庫自動化工具的功能

資料倉庫系列之關于資料倉庫自動化技術

  資料倉庫自動化工具主要包括系統管理、業務總線管理、次元模型管理、作業管理、應用管理、中繼資料管理、資料标準管理和行業名額庫等子產品。 個人認為真正健全軟體應該具備上圖的功能特點或者實作次元模組化工具箱中提及的34個子系統。

  系統管理:這個子產品主要管理各個系統的資訊包括源系統資訊、資料倉庫系統、作業排程系統、報表浏覽系統。通過源系統資訊可以自動導入源系統的中繼資料,為次元模組化和檢查資料結構變化提供資料。

  業務總線管理:每個源系統都有多個業務過程,每個業務過程都會涉及多個次元實體。業務過程和次元實體組成總線結構,統一管理每個源系統的業務總線。

  次元模型管理:根據命名規範進行實體模型和映射關系設計,保證命名的統一。可以自動生成建表腳本,自動在資料倉庫執行腳本。

  作業管理:根據查詢腳本和程式模闆自動生成ETL程式,自動生成作業的依賴關系。保證程式代碼的統一,規範。

  應用管理:統一管理報表、接口業務中繼資料資訊。

  資料标準管理:統一管理代碼命名規範、資料類型映射關系、常用單詞庫、名額定義、ETL程式模闆。

  中繼資料管理:在開發的過程中,會存儲各種中繼資料資訊,可以根據這些中繼資料進行代碼規範檢查、資料影響分析、資料異常監控。

  項目文檔管理:可以在BI項目實施時進行自動生成資料處理過程的備注資訊,可以較長的描述知道字段的轉換,抽取規則等等

  行業名額庫:通過公司積累的行業資料名額進行适配客戶資料,實作低成本靈活傳遞BI項目。

  七、總結

  ETL工具引入了很多時間的延誤和風險到您的商業智能項目。更糟的是,他們期待您的業務使用者能夠學習掌握資料倉庫中的表和字段,真正業務使用者時不了解資料倉庫的,是以不可避免的變化将要花費很長的時間來解決。真正可以讓業務使用者了解的隻有業務術語,利用語義模型才是解決該類問題的最好方法。你能用靈活的ETL工具,來完成模型的設計。如果您估計傳統的資料倉庫項目,需要半年,同樣的項目在具有良好和高度配置化的資料倉庫自動化工具來完成隻需要幾個星期處理好。時間對于任何公司和個體都是十分重要的,是以選型資料倉庫工具也是需要非常謹慎小心。

小黎子,一個專注于資料分析整體資料倉庫解決方案的程式猿!

作 者:黃昏前黎明後

出 處:http://www.cnblogs.com/fly-bird/

歡迎關注個人公衆号:小黎子資料分析,轉載文章請務必注明出處。

繼續閱讀