天天看點

企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

作者:優享智慧方案
原文《企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案》WORD格式。
企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

總體架構

資料中台的總體架構以全域大資料建設為中心,覆寫整個大資料擷取、治理、建立目錄、共享、服務、可視化的全鍊路環節。

架構總體上是一種服務化的架構,各服務子產品間弱耦合。每個子產品對外的服務是開放性的,這意味着各種不同的子產品可以按需使用。不僅如此,合理、恰當、符合邏輯的問題拆解,将每個子問題域控制在合适的粒度大小,這利于展開落地方案的架構設計,并為系統的運作演化奠定了子產品化、元件化的指導基礎。

各層次間的銜接與互動采取“服務化”的設計思路,層次間弱耦合,在層間通信契約穩定的前提下,各層均可獨立的進行擴充變更。同時,基于這種松耦合的邏輯設計與實作,在部署架構上,可以支援靈活地按需部署,各種不同的子產品部件,可以按需地分布在相同或者不同的程序單元中,并且各層次内也可以根據資料處理規模來橫向伸縮擴充。

企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

2.2、總體設計原則

資料中台的涉及内容衆多,技術複雜,使用對象覆寫面廣。是以,在建設時,項目規劃設計應遵循以下基本原則:

先進性原則。本項目整個平台應采用先進的技術,符合技術發展趨勢。資料中台采用先進技術,針對不同的業務場景,采用不同的計算和存儲技術來對應等。平台采用先進的架構,各個部分之間采用松耦合,一個子系統出現問題不會影響其他系統。

易用性原則。平台應注重易用性,友善使用者使用。資料中台的各個子系統注重易用性的設計,界面和操作直覺、美觀、友善, 易了解性,使使用者抓住重點,一目了然;易操作性,提供便捷、一緻的操作方式,減少使用者輸入和點選次數;易管理性,縮減安裝、配置、實施、備份的時間和難度。

安全性原則。應充分保證資料的安全性,提供合理的解決方案。針對資料安全性,采用立體化的安全防範手段,一方面加強對現有安全裝置的利用,另一方面應采用安全加密和脫敏系統加強對資料的防護,并結合已有的安全管理制度,共同形成高安全性防護。

擴充性原則。平台應考慮技術的發展和未來的應用需求,提供良好的擴充性,確定随着業務的發展能夠快速進行系統的擴充。為保證系統的可擴充性設計,在系統架構上,采用系統分層設計實作。保證在設計開發上具有适應業務變化的能力,當系統新增業務功能或現有業務功能改變時(界面的改變、業務實體變化、業務流程變化、規則的改變、代碼改變等),應盡可能的保證業務變化造成的影響局部化。

整體性原則。要考慮各系統之間的內建,形成一個整體對外提供服務。由于資料中台類項目涉及的子平台和子系統衆多,為展現系統的整體性,應提供統一門戶,完成各子平台和子系統的身份統一和內建,完成各系統的界面、應用和資料內建,確定各部分形成一個整體統一對外提供服務。

2.3、總體建設方案

中台技術建設逐漸成為建構“大中台、輕應用”的資訊化建設格局,加快資訊化應用創新和發展,進一步解決現有資料平台瓶頸的重要手段和支撐。資料中台是中台技術的關鍵内容,資料中台建設主要包括資料存儲、資料內建、資料治理、資料服務等方面以及相關的資料實施。資料存儲、資料內建、資料治理方面主要是為了加強資料中台的資料處理能力,資料服務則主要是為了支援應用和業務的進一步創新和發展。同時,資料實施服務是資料中台建設能較好落地的基礎和保障。

2.4、詳細建設方案

2.4.1、資料資源梳理

本次項目需要的梳理的資料資源包括對接市局的資料資源、分局自身擁有的資料資源、調研梳理其他局委辦資料資源,市局和分局的資料資源相對比較明确,其他局委辦資料相對較模糊需花費一定的時間進行調研。

2.4.1.1資料資源梳理方式

在梳理資訊資源時可以通過以下4種方式進行:

l、采取不同的收集手段。

A.相容各個電子系統,收集整理資料。近幾年,随着資訊化建設的推動和發展,各個部門的資訊化建設都有不同程度的提高。各個部門或多或少都建立起計算機系統,隻是各個部門發展程度不一樣,有些部門電子化程度很高,絕大多數資料都納入到計算機系統中,而有些部門電子化的東西還很少。充分利用現有的各個電子系統,是獲得資訊資源最有效的途徑。但在利用同時還存在一些問題,如各個部門即有自己的辦公自動化系統,又有業務系統;既有以前開發的系統,又有新開發的系統;既有可公開的系統,又有密級的系統,幾個系統間并不相容,這樣就需要在收集整理這些資料前,先對這些系統進行整合,抽取出符合要求的資訊資源。

B.手工整理資源。各個部門資訊化建設時總會有些資料資源被落下,特别是些老資料,像很多年前的檔案資料、曆史資料,這些資料就需要手工進行整理。

2、以資訊資源的時間為主線收集。

資訊資源雖然内容多而雜,但也是有規律地産生的,可以根據資訊資源的産生的時間先後進行整理。時間的不同,部門所賦予的職責也會有變化,不同時期部門的名稱都會有明顯變化,職能的調整就更多,職能對應的資源資訊也就有變化。通過時間整理資料,邏輯上比較清楚。

3、以資訊資源的研究内容為主線。

以資訊資源的研究内容整理資料,其實就是根據其職能範圍來整理資料。根據部門的每個職能,收集相應職能所涉及到的資訊資源。由于有些資訊資源包含的内容比較多,是以這種整理方式會有重複收集的現象。

4、從業務應用出發進行梳理。

業務部門在履行職能、辦理業務和事項中随時都需要和産生的資訊資源,它的存在和分布是跨行業、跨部門、跨地域的,并且大部分資訊資源随着業務的開展不斷産生和變化,是一種與政府活動相關的動态資訊資源。由于各個地區經濟發展不同、各個部門職能不同,所擁有的政府資訊資源也各不相同。

資訊資源與業務密切相關的特點要求資訊資源整合方法應适應業務和資訊的動态産生和變化。資訊資源目錄體系就是從業務應用出發,梳理業務辦理的流程、職責、依據等,編制資訊資源目錄。如針對案件研判業務,需要通過調查和梳理相關的業務環節和部門,根據業務流程,梳理和分析業務相關的資訊,并且根據相關的資訊資源描述規範和分類規範描述以及辨別資訊資源,編制面向業務的資訊資源分類目錄和共享目錄,在目錄體系的基礎上進行資訊資源整合。這樣的整合方法為資訊資源的動态有機整合建立了基礎,可以适應政府資訊随業務處理而動态變化的特點。

2.4.1.2資訊資産梳理與編目工具

為實作對資訊資産的梳理與編目,我們在資訊資源管理與服務平台中提供了資訊資産登記與管理系統。通過系統實作:

采用标準化工具完成基礎資訊資源的梳理,資源梳理工具的管理内容包括系統目标、組織結構、業務角色、使用者視圖等;

對業務流程圖和資料流程圖進行管理,能夠識别協同關系和資訊共享需求,能夠明确職責、整理和挖掘資料資源、規範資料表示;

對資料庫的主題庫、邏輯實體、實體關系圖、資料映射圖、資料元标準、資訊分類編碼進行管理;通過梳理明确資訊資源的出口、入口、資料間關系;

支援資訊資源的文檔的自動化生成(資料庫設計文檔、資訊資源目錄、實體關系圖等);

支援思維導圖等方式的可視化展示。

資訊資源梳理的成果為資料交換提供資料來源、業務流程、資源目錄、标準規範等服務支撐。

資源梳理工具的功能包括高階導圖、思維導圖、業務架構、資料架構、應用架構、需求管理、文檔附件、系統編碼、權限管理、項目管理、系統設定等。

資訊資源梳理平台通過兩類視角進行說明:管理視角、維護視角。

在管理視角下進行系統編碼字典、使用者及權限管理、項目子產品管理、系統設定等系統管理級别操作。

在維護視角下對高階導圖、業務架構、資料架構、應用架構、需求管理等功能子產品内容進行編輯和查詢操作。

資訊資産登記

資訊資産登記系統實作了各類資訊資産的注冊與維護,實作資訊資源的編目功能。資訊資産登記系統包括業務架構登記管理、資料架構登記管理和應用架構登記管理、架構資産目錄管理功能。資訊資産是政府架構裡的核心構成和基礎,對資訊資産的梳理和編目、資訊資産登記系統是政府整個資訊化工作的靈魂和基石,資訊資産登記系統産品用來支援資訊資産初始化,并作為有序存儲和可持續管控的起點。

在資訊化工作過程中,将産生大量、複雜的資訊,它們數量多、門類廣、分布分散、資訊資源提供者和資訊資源使用者的資訊不對稱,這些資訊隻有經過梳理、分類、編目和可視化,才能變得更有價值,進而形成真正的資産,完全依靠手工和紙面管理幾乎變成不可能,必須引入資産知識儲藏庫,通過合理的架構管控,保持定義與了解的一緻性,并貫穿資訊化建設的始終,對資訊從産生、處理、傳輸、利用的全生命周期進行梳理、規劃、設計和實施落地,保證資訊和知識記存與使用的無歧義和連續性。為此,必須使用科學、合理、動态、活化的技術文檔來存儲相關資訊,建立此儲藏庫是一個積累發展過程,首次規劃資料的存儲,有利于後續開發工作的進行;修訂業務架構,優化資料架構和系統架構,都建立在原有知識庫的基礎上。

資訊資産登記系統将滿足其他組織建立資訊資産編目體系而開發的産品,可以輔助這些組織的架構管理機構或資訊部門,對業務、資料、應用等進行可視化的資訊資産建構工作,并支援彼此之間的關聯和可持續改進,形成清晰完整的高階資産模型。有效支撐資訊資産和企業架構開發理論、方法的具體實施。産品的資訊資産知識庫,存儲整個開發過程中的各種資産和資源,管理層、決策層可從不同角度、視點去審視企業的結構和運作,幫助政府或企業有效實作IT戰略。

該工具軟體主要基于企業架構、資訊工程、總體資料規劃、資料管理等理論,引入高階的架構開發方法和資訊化建設中的标準化核心内容,工具通過中心資料庫共享功能将各子產品有機聯系在一起,集中記錄和管理需求,支援多團隊協作和各實施階段成果之間的一緻性,同時,支援主流模組化标準文檔的導出。

2.資訊資産管理

資訊資産管理是系統維護人員對登記後的資訊資産,實作有效的管理,并通過平台實作對外的可視化展現與資訊資源的釋出。資産管理包括資源目錄的管理、檔案的管理和服務的管理。

資訊資産管理子系統為可視化管理平台。通過該平台,中心管理者可管理整個域内的資訊資産情況,部門管理者可管理該相關部門的資産情況。資訊資産管理子系統主要包括以下幾大部分功能:

1、資産總體視圖

2、組織機構視角

3、服務對象視角

4、資訊資産視角

5、協同主題視角

2.4.2、建立資料标準和規範

建立的一套符合自身實際,涵蓋定義、操作、應用多層次資料的标準化體系。

資料治理對标準的需求可以劃分為兩類,即基礎性标準和應用性标準。前者主要用于在不同系統間,形成資訊的一緻了解和統一的坐标參照系統,是資訊彙集、交換以及應用的基礎,包括資料分類與編碼、資料字典、數字地圖示準;後者是為平台功能發揮所涉及的各個環節,提供一定的标準規範,以保證資訊的高效彙集和交換,包括中繼資料标準、資料交換技術規範、資料傳輸協定、資料品質标準等。

2.4.2.1資訊資源标準和管理規範制定

标準規範體系是虎丘區公安分局大資料中心标準化工作的核心,也是虎丘區警察局大資料中心總體設計的重要内容。虎丘區警察局大資料中心标準規範體系建設過程将按标準規範辦事,使工程建設效果符合最新的行業技術品質标準規範,保證工程的先進性和可靠性,符合國家、省、市電子政務項目建設規範的要求。

2.4.2.2标準規範體系和管理規範制定思路

建立标準規範體系是實作城市大資料中心對外提供資料服務的重要支撐,是直接導緻本項目建設成敗的重中之重。具體的建設思路如下:

1)符合國家和虎丘警察局資訊化規劃的相關政策法規

項目相關标準規範體系設計及制度的制定,必須在國家和虎丘警察局相關政策的指導下,根據《中華人民共和國标準化法》,從項目建設的實際需要出發,統籌考慮大資料中心切實利益,進行制定。

2)遵循國家相關标準規範和管理規章

審查項目相關标準、規範及制度的制定,必須遵循國家資訊化建設的相關标準規範,以及标準制定相關規章制度,進行起草、送審和釋出。

3)從虎丘區警察局資訊化建設發展的大局出發

項目相關标準、規範及制度的制定,要符合無錫市資訊化建設總體思路,進行深入研究、探讨、制定,按需建立資訊資源的統一資料标準。

4)充分滿足本項目建設和發展要求

緊密貼合項目的建設目标,充分滿足大資料中心的建設和發展要求。

2.4.2.3标準規範體系和管理規範制定範圍

1.資料規範

資料标準規範由公共資料元标準、公共代碼标準、公共資料存取規範和資料交換規範組成。除國信辦[2003] 62号要求的六項基本資訊和十二項應用資訊的标準外,基礎資訊庫建設還需其他資訊标準的制定。

(1)資料分類與編碼

資料分類與編碼标準是資訊化建設中标準化的一項基礎工作,該類标準規定平台彙集、交換相關資訊統一的分類系統和排列順序以及編碼規則,目的是在不同系統和使用者之間建立交通資料的一緻參照,對提高資料采集、處理和資料交換效率具有重要作用。資料分類與編碼标準的制定将有力推進平台标準化及交通資訊化建設标準化的程序。

(2)資料字典

針對實際需求,定義資料集,建立各個領域的資料字典,規範資料概念和資料定義。在此基礎上,形成完備的集團機關資料集和資料字典。

(3)中繼資料标準

中繼資料标準是描述資料資源的具體對象時所有規則的集合,它包括了完整描述一個具體資料對象時所需要的資料項集合。針對各種資訊資源分别制定适當的中繼資料标準,可為資訊的管理、發現和擷取提供一種實際而簡便的方法,進而提高資料交換效率。

(4)資料交換标準

為了保證資料共享和交換的順利實作,必須明确定義和規範資料交換的相關标準。資料交換的标準規範是綜合資訊平台的核心标準。其中應當包括資料交換内容、資料交換格式、資料傳輸方式、各類中心間資料接口的标準化等方面。

(5)資料品質标準

由于資料采集任務通常由其他二級平台完成,資料治理平台的标準方法主要集中在資料的加工和管理上。應該重點開發的一個領域是資料品質控制方法。應當從三個方面對資料品質方法進行研究:“壞資料”或“不可靠資料”的識别,錯誤資料的編輯方法,以及缺少值的處理。

2.技術規範

技術規範由如下組成。

基礎資料庫标準規範

針對基礎資訊資料庫建庫标準制定規範,并為未來其他基礎庫建設形成體系規範。

外部接口規範

外部接口規範為其他系統接入提供可執行規範,包括在系統接口定義、交換系統交換方式、部門接入資訊字段定義、各類應用層協定等。

二次開發規範

二次開發規範,明确開發權限定義、資料接口定義、功能挂接定義、平台要求等。

測試規範

測試規範規定測試條件、範圍、選擇資料,以及測試案例定義等。

3.業務規範

業務操作流程規範

配合資訊資源整體建設,規範業務人員操作各應用系統所确定的業務規範。

安全保密規範

配合資訊資源整體建設,明确應用系統使用安全與保密規範,完善系統保密規範。

4.資訊化管理規範

配合資訊資源整體建設,形成資訊化管理規範。

業務部門資料交換共享機制規範

配合資料交換平台相關規範制定,确定業務部門資料共享機制規範,明确業務部門資訊共享指南。

5.系統運作管理規範。

系統運作管理規範,為各級管理者和使用者提供運作管理指南與規範。

6.資料維護管理規範

資料維護管理規範,針對中心資料庫的各類資料,進行管理維護的規範等。

資料标準對資料內建和資訊資源共享具有重要意義:

  1. 增強業務部門和技術部門對資料定義和使用的一緻性。
  2. 減少資料轉換,促進系統內建。
  3. 促進資訊資源共享。促進單一資料視圖的形成,支援管理資訊能力的發展。
  4. 消除各部門間的資料壁壘,友善資料的共享,另外資料标準同樣對業務流程的規範化有幫助作用。

2.4.3、資料接入服務

資料接入系統主要實作多源異構資料的跨網絡、跨地域的統一接入,為資料資源的彙聚集中、标準化處理和資料資源池建構提供支撐,功能主要有資料抽取、資料庫同步、檔案導入、資料填報等。

主要為了解決各級部門群組織在中心側的資料落地問題,采集後的資料統一歸集到資料湖滄庫中的“原始資料區”。需要支援的資料采集方式需包含資料流采集、資料庫采集、日志采集、接口采集、應用資料采集、網頁爬取、檔案交換等多種方式。

資料接入可以分為以下幾個部分:

執行引擎:依照使用者設定的業務流程,完成對變更資料的捕獲。通過重做日志采集和對資料庫日志的解析,識别出變更資料内容;再通過事務的過濾、合成和加載等流程,實作事務的統一控制,確定事務的一緻性和準确性。

控制台:控制台負責為使用者提供多種管理和監控功能,包括資料采集的性能監控,異常情況的管理,采集任務的排程管理以及中繼資料的管理等。

第三方接口:系統提供了種類豐富的第三方服務接口,包括管理監控類的接口,以及服務內建類的接口等。通過上述服務接口,使用者可以在第三方系統中進行産品的內建和二次開發,以滿足使用者不同業務場景的功能需求。

在資料接入過程中采根據建立的資料标準,用資料清洗模型可快速對不同的資料進行整合清洗。

資料接入日志:接入資料做好日志記錄,可根據要求定制日志需記錄的内容。

本次規劃的資料接入包含如下幾種類型:

(1)分局現有存量資料的資料接入:該部分資料主要是依托大資料基礎平台提供的資料庫環境,開展存量資料的抽取、标準化轉換和加載工作最終将該類資料整合到公安大資料資源庫。

(2)現有業務系統不斷新增的生産資料的資料治理:該部分資料的處理根據源資料的提供方式不同,分為兩部分:一是源資料的業務系統直接開放資料庫賬号(隻讀),直接通過資料庫直連的方式進行資料抽取整合;二是源資料的業務系統開放webservice接口,設定相關的通路規則,然後通過該資料接口進行資料抽取整合。

(3)市警察局同步的資料,根據市局接口的要求,針對性的對每種資料開發對應的接口,根據市局資料同步的周期,可以和資料更新周期,也可以定時抽取同步。同步市局的資料可采用資料抽取、資料庫同步、斷點續傳等多種方式。

(4)公安體系外黨政機關、社企機關所共享出來的資料資源與社會化采集資源,例如工商資料(法人庫)、稅務資料、社醫保資料、銀行資料等,需要利用公安安全邊界平台,實作與此類資料的整合作業。

通過資料接入服務,建立了部分符合資料标準要求的高新區分局資料倉庫。

2.4.4、基礎資訊資源庫建設

2.4.4.1設計原則

城市大資料中心資料庫的資料涉及到各類基本資訊資源、擴充資訊資源,以及多種專業應用等多方位多層次資料和資訊。資料類型有數字、文字乃至圖檔等,主要以表格形式表現,既有實時采集資料,也要包含多年曆史資料。

對于基于大型關系資料庫的核心業務系統,資料庫是系統的核心。資料庫結構的設計也就是項目成敗的關鍵。設計不好的資料庫,會增加程式設計複雜度、後期維護繁瑣、系統性能低下等等問題。由此,資料庫設計之初必須遵守如下設計原則。

盡量減少資料備援,實作最低的存儲空間、最高的存取速度、確定各資料項間的關系規範,能夠展現完整的政務資訊視圖。

資料庫的資料規範化設計達到第四範式(4NF)。

關系模式規範化設計的基本思想是通過對關系模式進行分解,用一組等價的關系子模式來代替原有的關系模式,消除資料依賴(包括函數依賴和多值依賴)中不合理的部分,使得一個關系僅描述一個實體或者實體間的一種聯系。這一過程必須在保證無損連接配接性、保持函數依賴性的前提下進行,即確定不破壞原有資料,并可将分解後的關系通過自然聯接恢複至原有關系。

規範化設計的優點包括可有效地消除資料備援,理順資料的從屬關系,保持資料庫的完整性,增強資料庫的穩定性、伸縮性、适應性。通常認為規範化設計存在的主要問題是增加了查詢時的連接配接庫表運算,導緻計算機時間、空間、系統及運作效率的損失。在大多數情況下,這一問題可通過良好的索引設計等方法得到解決。

具體地說,規範化設計的過程就是按不同的範式,将一個二維表不斷地分解成多個二維表并建立表之間的關聯,最終達到一個表隻描述一個實體或者實體間的一種聯系的目标。目前遵循的主要範式包括1 NF、 2 NF、3 NF、BCNF、4NF和 5NF等幾種;在工程中3NF、BCNF應用得最廣泛,本次項目采用 4 NF作為标準。

此外,資料庫系統對資訊的處理、擷取、釋出、存儲等提出了很高的性能要求。主要展現在以下幾個方面:

一、資訊的存儲,以及日益膨脹的曆史資料。

二、資訊的檢索,各種各樣的使用者如何從一個資料庫中快速的查詢到所需的資訊。

三、資料的完整性和一緻性如何保證。

随着客戶/伺服器(Client/Server)技術的成熟和大型關系型資料庫(LDBMS)技術的發展,出現了Oracle ,Sybase,Informix,DB2,Ms Sqlserver等一些著名的資料庫産品,使得這些問題得到完美的解決。但是,一個好的資料庫産品不等于就有一個好的應用系統,如果不能設計一個合理的資料庫模型,不僅會增加用戶端和伺服器端程式的程式設計和維護的難度,而且将會影響系統實際運作的性能。一般來講,在一個軟體系統分析、設計、測試和試運作階段,因為資料量較小,設計人員和測試人員往往隻注意到功能的實作,而很難注意到性能的薄弱之處,等到系統投入實際運作一段時間後,随着資料的日益膨脹,才發現系統的性能在降低,這時再來考慮提高系統性能則要花費更多的人力物力,而整個系統也不可避免的形成了一個打更新檔工程。

依據在軟體行業資訊化應用中的資料庫設計和使用經驗,以及對項目建設的了解,提出以下一些設計準則:

命名規範原則。

不同的資料庫産品對對象的命名有不同的要求,是以,資料庫中的各種對象的命名、背景程式的代碼編寫應采用大小寫敏感的形式,各種對象命名長度不要超過30個字元,這樣便于應用系統适應不同的資料庫平台。

遊标的慎用原則。

遊标提供了對特定集合中逐行掃描的手段,一般使用遊标逐行周遊資料,根據取出的資料不同條件進行不同的操作。尤其對多表和大資料表定義的遊标(大的資料集合)循環很容易使程式進入一個漫長的等待甚至當機。在有些場合,有時也非得使用遊标,此時也可考慮将符合條件的資料行轉入臨時表中,再對臨時表定義遊标進行操作,可使得性能得到明顯提高。

索引(Index)的使用原則。

建立索引一般有以下兩個目的:維護被索引列的唯一性和提供快速通路表中資料的政策。大型資料庫有兩種索引即簇索引和非簇索引,一個沒有簇索引的表是按堆結構存儲資料,所有的資料均添加在表的尾部,而建立了簇索引的表,其資料在實體上會按照簇索引鍵的順序存儲,一個表隻允許有一個簇索引,是以,根據B樹結構,可以了解添加任何一種索引均能提高按索引列查詢的速度,但會降低插入、更新、删除操作的性能,尤其是當填充因子(Fill Factor)較大時。是以對索引較多的表進行頻繁的插入、更新、删除操作,建表和索引時應設定較小的填充因子,以便在各資料頁中留下較多的自由空間,減少頁分割及重新組織工作的産生的機率。通常,還要根據算法邏輯關系動态調整資料庫資訊表的索引。

資料的一緻性和完整性。

為了保證資料庫的一緻性和完整性,設計人員往往會設計過多的表間關聯(Relation),盡可能的降低資料的備援。表間關聯是一種強制性措施,建立後,對父表(Parent Table)和子表(Child Table)的插入、更新、删除操作均要占用系統的開銷,另外,最好不要用Identify 屬性字段作為主鍵與子表關聯。如果資料備援低,資料的完整性容易得到保證,但增加了表間連接配接查詢的操作,為了提高系統的響應時間,合理的資料備援也是必要的。使用規則(Rule)和限制(Check)來防止系統操作人員誤輸入造成資料的錯誤是設計人員的另一種常用手段,但是,不必要的規則和限制也會占用系統的不必要開銷,需要注意的是,限制對資料的有效性驗證要比規則快。所有這些,設計人員在設計階段應根據系統操作的類型、頻度加以均衡考慮。

事務的陷阱。

事務是在一次性完成的一組操作。雖然這些操作是單個的操作,Oracle資料庫能夠保證這組操作要麼全部都完成,要麼一點都不做。正是大型資料庫的這一特性,使得資料的完整性得到了極大的保證。

資料庫性能調整。

在計算機硬體配置和網絡設計确定的情況下,影響到應用系統性能的因素不外乎為資料庫性能和用戶端程式設計。而大多數資料庫設計員采用兩步法進行資料庫設計:首先進行邏輯設計,而後進行實體設計。資料庫邏輯設計去除了所有備援資料,提高了資料吞吐速度,保證了資料的完整性,清楚地表達資料元素之間的關系。

而對于多表之間的關聯查詢(尤其是大資料表)時,其性能将會降低,同時也提高了用戶端程式的程式設計難度,是以,實體設計需折衷考慮,根據業務規則,确定對關聯表的資料量大小、資料項的通路頻度,對此類資料表頻繁的關聯查詢應适當提高資料備援設計。資料庫模實體生成後,應根據應用系統的事物大小、伺服器的性能調整資料庫伺服器的系統參數,一般來講,有兩個系統參數鎖(Locks)的數量、記憶體(Memory)和過程高速緩存(Procedure cache)大小應加以提高,可以提高資料庫的操作性能。

2.4.4.2基礎資料庫設計

資料庫設計是建立資料庫及其應用系統的核心和基礎,它要求對于指定的應用環境,構造出較優的資料庫模式,建立起資料庫應用系統,并使系統能有效地存儲資料,滿足使用者的各種應用需求。一般按照規範化的設計方法,常将資料庫設計分為若幹階段:

需求分析階段

需求分析階段要在使用者調查的基礎上,通過分析,逐漸明确使用者對系統的需求,包括資料需求和圍繞這些資料的業務處理需求。通過對組織、部門、企業等進行詳細調查,在了解現行系統的概況、确定新系統功能的過程中,收集支援系統目标的基礎資料及其處理方法。

系統規劃階段

系統規劃階段主要是确定系統的名稱、範圍;确定系統開發的目标功能和性能;确定系統所需的資源;估計系統開發的成本;确定系統實施計劃及進度;分析估算系統可能達到的效益;确定系統設計的原則和技術路線等。對分布式資料庫系統,還應分析使用者環境及網絡條件,以選擇和建立系統的網絡結構。

概念設計階段

概念設計階段要産生反映機關各組織資訊需求的資料庫概念結構,即概念模型。概念模型必須具備豐富的語義表達能力、易于交流和了解、易于變動、易于向各種資料模型轉換、易于從概念模型導出與DBMS有關的邏輯模型等特點。

邏輯設計階段

邏輯設計階段除了要把E-R圖的實體和聯系類型,轉換成標明的DBMS支援的資料類型,還要設計子模式并對模式進行評價,最後為了使模式适應資訊的不同表示,需要優化模式。

實體設計階段

實體設計階段的主要任務是對資料庫中資料在實體裝置上的存放結構和存取方法進行設計。資料庫實體結構依賴于給定的計算機系統,而且與具體選用的DBMS密切相關。實體設計常常包括某些操作限制,如響應時間與存儲要求等。

系統實施階段

系統實施階段主要分為建立實際的資料庫結構;裝入試驗資料對應用程式進行測試;裝入實際資料建立實際資料庫三個步驟。

2.4.4.3中心資料庫組成

中心資料庫是大資料中心的核心資料庫,根據項目建設要求包括:資訊采集庫、綜合資訊庫、規則資料庫、中繼資料庫和管理資料庫。如下所示:

企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

圖:中心資料庫組成舉例

中心資料庫各庫間邏輯關系如下所示。

企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

1.資訊資源采集庫

中心資訊資源采集庫部署在交換資訊中心,其資料結構與各部門交換的資料源結構相對應。資訊資源采集庫的内容來源于各個政務部門業務庫,是由各業務庫通過資料共享與交換平台彙總形成,它是綜合資訊資料庫的生成來源。如上圖所示。

2.綜合資訊資料庫

綜合資訊庫是基于資訊采集庫生成的資訊資料庫。包括将資訊采集資料庫資料經過比對和整合系統進行比對、梳理形成的如法人和人口基礎資訊庫等,和根據應用需求梳理、彙總形成的支撐各類主題的專業資料庫。人口資訊基礎庫與法人基礎資料庫等的設計來源于部門業務資源,根據部門業務資訊資源進行結構設計。

3.規則資料庫

該資料庫用于存儲資料庫應用、維護中的各種規則。包括比對整合系統比對規則資訊,比對輔助資訊,交換系統各類規則資訊等。應用系統的運作必須制定相應的規則,包括使用者權限設計、比對策論與方法規則,以及應用的調用規則等。

4.中繼資料庫

中繼資料庫用于存儲對資料項的描述資訊。根據國家《政務資訊資源目錄體系》(GB/T21063-2007)标準的規定,核心中繼資料的定義包含6個必選的中繼資料實體和中繼資料元素,分别是:

資訊資源名稱:縮略描述政務資訊資源内容的标題。

資訊資源摘要:對資源内容進行概要說明的文字。

資訊資源提供方:資訊資源的完整性、正确性、真實性等負有責任的業務部門的名稱和位址資訊。

資訊資源分類:說明共享政務資訊資源分類方式及其相應的分類資訊。

資訊資源辨別符:資訊資源的唯一不變的辨別編碼。

中繼資料辨別符:中繼資料的唯一辨別。此外,配合目錄體系建設,此次的企業和人口基礎資訊建設的核心中繼資料,還包括6個可選的中繼資料實體和中繼資料元素。

資訊資源釋出日期:資訊資源提供方釋出共享政務資訊資源的日期。

關鍵字說明:說明共享政務資訊資源的關鍵字内容及其依據。

線上資源連結位址:可以擷取共享政務資訊資源的網絡位址。

服務資訊:描述政務資訊資源提供者所提供的計算機服務功能接口的基本資訊。

中繼資料維護方:對中繼資料内容負責的政務部門的名稱和位址資訊。

中繼資料更新日期:更新中繼資料的日期。

5.管理資料庫

管理資料庫用于存儲問題資料、日志及權限等資訊。包括比對過程問題資料;面向安全性的使用者管理、權限管理和密碼管理;面向可用性的節點管理和狀态監控;面向運作管理機制的資訊管理。

2.4.5、資料處理系統

2.4.5.1資料清洗、比對和處理步驟

在資料經過資料共享交換平台處理完成之後,針對基礎資料的入庫還需要經過資料處理方能正式入庫,以達到資料的統一和标準化,資料入庫流程如下:

企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

圖:資料入庫流程

接下來圍繞資料比對、清洗及建庫來展開介紹。

資料處理主要包含兩個方面:資料清洗、資料比對、資料遠管理、規則管理、資料整合流程管理、作業管理,下面分開展述:

資料清洗:按照通用或者指定的清洗規則,針對資料本身屬性錯誤的資料進行過濾,例如:身份證号碼位數,隻有15位或者18位,其他位數即可認定為身份證号錯誤,通過過濾規則,即可将這類錯誤資料過濾。通過資料清洗功能,為資料比對提供幹淨、準确的資料環境。

資料比對:将同一屬性但來自不同資料源的資料,通過制定的比對規則進行比對,例如:同一人的婚姻狀況資訊即可來自公安部門,也可來自民政部門,通過資料比對,比對一緻,即可認定該人的婚姻狀況準确,不一緻,則認定為錯誤,回報到相關部門進行核查。

中心通過清洗比對系統,對采集庫擷取的各部門彙總資訊進行清洗、比對,形成标準、規範、準确、可信度高的法人和人口基礎資訊。

資料清洗比對系統主要功能包括:

資料源管理:通過資料源管理子產品可以定義多種資料源連接配接,獲得資料源的中繼資料,對資料源可進行增删改查等操作。

規則管理:通過通用資料規則管理子產品,可以将基礎資料規則庫内的規則進行組合,形成新的規則。除了以圖形方式進行規則的組合和定義之外,還可以通過腳本定義更複雜的規則,包括規則的輸入參數和傳回值等。通過這兩種方式自定義的規則都可被進一步使用,組合成更複雜的規則。某個項目下的自定義規則可以另存為擴充規則作為所有項目公用的擴充規則。

資料整合流程管理:資料整合流程的定義是通過在圖形界面上指定資料處理元件之間的關聯關系而完成的。資料處理元件包括資料過濾,資料轉換等多種類型。從資料整合流程生成資料作業,資料作業可以直接放入資料處理引擎執行。

作業管理:作業管理子產品負責将資料處理流程轉換為可運作的資料作業,并将作業上傳到中心管理平台上,由中心平台對作業進行統一的排程和管理。

2.4.5.2資料清洗系統

資料清洗實作對不符合規定格式的資料的“洗除”,利用使用者認可的過濾規則,過濾那些不符合要求的資料,最終将過濾的結果交給相關業務部門的過程。

資料清洗系統的功能包括中繼資料管理、資料服務、資料規則管理和安全子產品。具體如下。

中繼資料管理

中繼資料記錄了資料源的結構資訊,有了中繼資料才能對資料源進行各種操作,中繼資料管理子產品提供了對各資料源的中繼資料進行注冊,加載,檢視等功能。

資料清洗系統首先提供對關系型資料庫中繼資料的支援,以後可以逐漸擴充到對XML格式,消息隊列,檔案,以及應用程式的特殊格式等進行支援。

管理平台通過中繼資料存儲子產品提供的接口,獲得中繼資料倉庫中所有中繼資料的清單,并通過樹狀結構呈現出來。業務中繼資料和技術中繼資料分别顯示,技術中繼資料還可以按各資料源的實際類型分類顯示。

管理平台的使用者可以對中繼資料進行修改或删除等操作。

中繼資料存儲子產品集中存儲了各個資料源的技術中繼資料(由資料源注冊而來),業務中繼資料(由資料源注冊或通過中心操作管理平台定義),以及從技術中繼資料到業務中繼資料的映射規則等内容。中繼資料注冊子產品則負責監聽資料源的注冊請求,當接收到注冊請求時,注冊子產品會分析接收到的中繼資料是否有效,并将有效的中繼資料注冊到中繼資料存儲子產品中。

在每個資料源端,中繼資料是通過XML檔案描述的,在注冊資料源中繼資料的時候,資料源管理子產品會把要注冊的中繼資料生成XML文檔,并通過中繼資料注冊子產品提供的接口将此XML文檔注冊到中心。

中繼資料存儲子產品還對外提供了一系列的接口,允許外部應用程式通過這些接口對中繼資料倉庫進行一些操作,比如獲得中繼資料清單,查詢某些符合條件的中繼資料,注冊新的中繼資料等。

資訊資源中繼資料根據部門共享資訊資源的内容進行編目,提取其基本特征,按照《政務資訊資源目錄體系标準》(GB/T 21063-2007)第三部分核心中繼資料、第四部分分類标準、第五部分資源辨別編碼等相關标準,實作中繼資料指派,形成目錄内容。

編目過程遵循以下國标規定的技術要求:

編目對象是具體的共享資訊資源,主要内容包括資料集、檔案、法律法規、檔案、報告、服務等,具體的形式可以是資料庫、圖檔、文檔、音頻、視訊、網頁、服務等;

編目系統應支援自動、機輔方式完成中繼資料元素的指派;

唯一辨別符管理功能:按照GB/T 21063.5-2007,支援唯一辨別符的配置設定和指派,包括支援後段碼的自動生成和管理;

标準符合性檢查功能:支援政務資訊資源中繼資料完整性和标準一緻性檢查,中繼資料完整性檢查的主要目的是保證所有必選的中繼資料實體和中繼資料元素已經指派,标準一緻性檢查的主要目标是保證已填寫的中繼資料實體和中繼資料元素的取值符合GB/T 21063.3-2007、GB/T 21063.4-2007和GB/T 21063.5-2007的規定;

資訊資源分類:按照GB/T 21063.4-2007,實作對共享政務資訊資源的分類。

資料服務

資料服務是資料清洗系統中最核心的部分,由于采用了面向服務的架構(SOA),對資料的操作全部被包裝成服務的形式,資料服務種類的多少決定了對資料可以進行什麼樣的操作。

資料清洗系統提供了一些預定義的基礎資料服務,如資料傳輸,資料轉換,資料清洗,資料比對,資料加載,資料共享等。同時還支援使用者自定義資料服務并注冊到平台上,形成多樣化的擴充服務,實作了資料服務的安全性,可靠性,以及可排程性等。

資料清洗服務是資料清洗系統的核心,作為一個面向服務的平台,資料清洗系統是由多個資料清洗服務組成的,其中包括一系列預定義的基礎資料服務,這些基礎資料服務包括以下幾個:

資料清洗:資料清洗過程應該包含兩個層次的含義,第一是資料過濾,将源資料按照一定的過濾規則進行區分,符合規則和不符合規則的資料分别存放到不同的資料表中;第二就是真正意義上的資料清洗,即按照清洗規則将資料源中的資料直接進行轉換,并代替原來的資料。在實際工作中,可以先實作資料過濾的功能。

不管是資料過濾還是資料清洗都需要相應的規則,由規則定義子產品負責制定。

資料比對:資料比對過程對兩個資料表中的資料按照規則進行比對,比如隻在某一個表中存在的資料,或者通過字段之間的關系定義比對規則。比對之後生成符合比對規則的結果表,和比對的統計資訊表。

資料加載:即在目的資料源中有一張目的表,多個資料源的多張表通過一定的加載規則将結果資料加載到這張目的表中。在實際的工作中,往往是有一張表作為基準資料表,首先進行加載入庫的操作,然後其它資料表通過與基準表進行比對,将相應的資訊插入或更新至目的表中。

資料轉換:資料轉換可以看作是資料傳輸和資料清洗過程的結合,資料源的資料按照一定的轉換規則生成新的資料并存放至目的資料源中。資料轉換支援資料字段之間一對多,多對一,以及多對多的映射關系。底層使用XSLT描述資料轉換的内容。

資料共享:對分布式的異構資料源進行集中統一的查詢。中心有一個統一的資料視圖,但是并不儲存資料,隻有在進行查詢的時候,才将查詢語句拆分并釋出到每個資料源進行實際的資料查詢。每個資料源查詢得出的結果整合之後傳回給中心的查詢者,進而得到想要的查詢結果。

除了以上這些基礎資料清洗服務之外,資料清洗系統還應支援使用者自定義資料清洗服務,并提供資料清洗服務注冊接口,使用者可以按照提供的資料服務定義規範制定自己的資料清洗服務,并通過注冊接口将服務注冊到資料清洗系統的平台上。資料清洗服務的定義和注冊機制提供了極大的擴充性,使得添加新的功能更加友善。

資料規則管理

許多資料操作,如資料清洗,資料比對,資料轉換等,都需要通過一定的規則才能完成。資料清洗系統的規則管理子產品提供了定義規則的使用者界面,使用者可以很友善的以圖形方式定義自己的規則。同時還提供了解釋規則的規則引擎,以及存儲規則的規則倉庫。

在資料清洗,資料比對,資料轉換等基礎資料服務,以及很多自定義的擴充服務中,都需要指定按照何種方式對資料進行操作,也就是資料操作規則。這些規則由規則管理子產品定義并維護,規則管理的内容包括:

提供基礎的函數庫,這裡面的函數是定義一切規則的基礎,通過函數的組合關系,可以進行規則的定制。

支援規則的儲存和重用,已定義的規則可以被用在新的規則定義中,進而制定更複雜的規則,減少了重複勞動。

提供定義規則的圖形界面,使用者不需要手工書寫規則檔案的内容,而是隻要在界面上通過拖拉連接配接的方式即可,已儲存的規則可以在圖形界面上再次打開修改。

規則檔案以xml格式儲存,被儲存在項目目錄下的自定義規則子目錄中,可以考慮采用xslt的格式。

為一些常用的規則提供已定義好的規則模版,使用者可以直接使用,或重用這些模版定義新的規則。

支援項目之間規則的導入導出。

支援多個規則按一定順序連接配接形成的規則流程。

使用規則時,從已有的規則庫中選擇要用的規則,并定義從資料表字段到規則變量的映射關系,進而從一個規則模版生成跟資料相關的具體規則。

安全子產品主要負責使用者權限的管理。安全子產品應該包含兩方面的内容,一是使用者的權限管理,包括使用者登入,使用者對功能子產品的使用權限,資料源、規則的檢視、修改、或删除權限等;另一方面是資料傳輸的安全,因為大部分的資料服務都是包括資料傳輸部分的,如何保證資料的安全傳輸是一個很重要的方面。

2.4.5.3資料比對系統設計

資料比對服務系統主要解決不同資料集合間的資料比對問題。系統基于J2EE架構,提供了資料轉換與加載、資料預處理、比對規則設定、比對引擎、比對分析報告等功能子產品。

政府、企事業機關使用者根據對資料比對的需求,利用系統提供的功能,可以友善、快捷地線上實作資料比對分析,提供自動比對和手工比對政策相結合的方式,改變傳統的手工比對工作方式的不足,提高辦事效率。同時,可大大節約建設專用資料比對分析系統的資金。

資料比對服務系統可以滿足多種資訊比對、分析的需求,主要功能是比較不同資料集之間的差異性。

比較兩個資料集合之間的差異情況,如企業基礎資訊比對是這種情況的一個典型應用,通過比較工商、質監、稅務部門之間企業注冊登記、變更登記、登出登記資訊,找出不同部門之間重複采集、重複錄入造成的資料不一緻問題,同時,通過比較可以發現在工商部門注冊,但未在稅務部門辦理稅務登記;已辦理稅務登記登出但未辦理工商營業執照登出等企業資訊,加強稅源監控力度。比較的方法是以企業的工商注冊号、企業名稱為比較依據,對比不同部門提供的企業資訊,等到完全一緻的資訊,企業名稱相同、企業注冊号不同,企業注冊号相同、企業名稱不同,工商有但稅務沒有的企業資訊等多種不同情況比對結果。

本次系統建設,将比對系統引擎嵌入到系統底層,實作如法人基礎資訊和人口基礎資訊的比對引擎調用,根據法人基礎資訊和人口基礎資訊的比對規則,制定的比對政策,根據一數一源的原則,保證資料規則确定的唯一性,實作多層次的比對方法和政策。

資料處理流程

進行資料比對處理的一般包括4個環節:

(一)系統初始化

(1)系統管理者建立使用者,并配置設定使用者權限。

(2)使用者資料模組化,規劃定義比對資料的原始資料結構、比對資料庫表結構以及兩者之間的映射關系,定義資料比對結果表結構。資料模組化完成後,可以被同類型資料重複使用。

(二)規則定義和任務配置

(1)定義規則:使用者利用工具集定義資料過濾、資料比對映射、資料入庫規則。

(2)配置比對任務:使用者建立比對任務,任務的内容是執行不同的規則。

(三)運作使用

(1)使用者上傳原始檔案,系統自動入庫

(2)執行比對任務,自動或人工執行比對任務

(3)使用比對結果:浏覽比對結果、生成結果報告

資料關系轉換

為了适應不同使用者的需求,系統提供了資料關系轉換功能,使用者可以自定義資料結構。資料關系轉換功能的要點如下:

(1)定義原始資料檔案:确定原始資料檔案類型、資料結構。原始資料檔案支援各類資料庫檔案、文本檔案、Excel檔案、XML檔案、Access檔案等。

(2)定義資料庫結構:原始資料的資料庫表結構、比對結果資料表結構。

(3)定義原始資料檔案與資料庫表的映射關系及資料轉換關系。

規則管理

規則配置包括:資料過濾規則配置、資料比對規則配置、比對結果入庫規則配置。

(1)資料過濾規則配置:配置資料過濾條件,篩選資料。 一般包括:字段類型校驗、字段值是否為空校驗、字段值長度校驗、字段間關系校驗等。

(2)資料比對規則配置:定義資料比較的規則,如比較的字段項、比對條件等,系統提供測試功能,使用者可以直接運作測試配置的比對規則。

(3)比對結果入庫規則配置:配置比對結果存儲規則。

任務管理

任務管理包括任務配置、任務監控等功能。

任務配置用來定義任務定時或周期性啟動比對規則進行資料比對處理。

任務監控功能可以監控任務執行曆史情況。

比對結果檢視

對系統進行比對後的資料進行相關的條件查詢,并根據使用者的需求導出為相應的檔案。支援的檔案主要有:Excel、XML、TXT 等。

比對結果資料主要分為兩大類:比對比對上的資料和比對比對不上的資料。

其他功能

資料比對服務系統還提供使用者管理、權限管理、資料源配置管理、日志管理等系統級功能。

2.4.5.4資料處理的技術要求

資料處理是完成一個完整資料交換流程中的一個重要環節,是資料交換平台所應具備的重要功能之一。資料處理過程包括資料抽取、資料橋接、資料過濾、資料清洗、資料比對和資料入庫幾個重要步驟。

通過對資料處理流程及規則的解析,根據定義的運作任務,自動執行資料處理工作,完成對資料的過濾、清洗、映射、轉換等功能。資料處理引擎支援模闆技術,能夠根據不同的模闆執行不同的處理語言,包括多種資料庫存儲過程、JAVA語言、C語言等。

資料處理功能可以通過手工方式和圖形化配置工具兩種方式實作。由于圖形化資料處理方式帶來的便捷性、可靠性、技術先進性和易維護性等特點,新一代的資料交換平台必須聽過強大的資料處理功能。

對主流資料庫和常用格式化檔案的支援

支援所有的ODBC或JDBC相容資料庫,包括Oracle、Sybase、Informix、 Microsoft SQL Server等。可以友善的實作對資料庫的通路,無論從資料庫抽取資料,還是插入資料。

支援格式化資料檔案,如XLS、XML、文本檔案等。

資料轉換

實作源資料庫和目标資料庫之間的資訊的轉換,根據需求對抽取的資料進行必要資料處理配置,不需要開發代碼,提供圖形化界面,友善使用者設定資料轉換規則。轉換的類型包括:字段名轉換、代碼轉換、資料類型轉換、資料校驗、資料合并等。

資料抽取方式

支援完全提取和增量提取兩種方式。完全抽取是一次性将源資料庫的所有業務資料抽取到目标資料庫中;增量抽取是隻将發生過增、删、改的新鮮資料抽取到目标資料庫中。支援資料庫映象方式的資料抽取。支援實時、定時、周期等多種采集方式。

對負載均衡及容錯的支援

前置交換結點(擴充卡)應提供負載均衡及容錯支援功能,任何一台機器發生故障均不影響整個交換結點的正常工作和運作,在交換任務繁忙是可将任務自動配置設定到多台交換前置機上運作。

部門維護“零管理”的支援

應用擴充卡是在中心管理和維護的,對部門來說,無需任何維護和管理工作。

資料過濾和清洗

設定資料轉換字典,定義資料庫中的髒資料及所述髒資料的修改規則;

擷取所述資料庫的屬性,資料屬性包括資料的編碼格式、字元格式及字元長短;按照規則對編碼格式不符合設定标準的資料和含有“髒資料”的資料進行修正;對所述讀取的資料進行标準化處理,将經過标準化處理後的新資料導入資料庫或送到交換平台。

2.4.5、資料資源目錄

資料資源目錄管理是,建立統一的資料彙集庫和管理界面,友善資料運維管理人員對“标準資料區”的資料進行管理、分類、查找。資料接入擷取到的結構化資料進行全量的存儲。根據建立的資料标準進行相應的資料處理後,可根據主題建立多級目錄進行管理。圍繞業務流程和研判分析等應用需要可建立各種類型的專題資源庫。通過對結構化資料進行二次抽取關聯,按不同業務主題建立專題庫、支援将結構化資料通過二次抽取,建立可進行全文檢索的全文庫。

1)關聯資源庫

在基礎資料資源庫的基礎上,采用關聯的技術方法,建立關聯模型,實作各類資料資源的關聯和內建調用。建立要素内各類基礎資料的內建關聯以及各要素事實表互相間的關聯,并進一步延伸實作各要素内基礎業務管理資料及可關聯共享資料次元表互相間的關聯。

2)專題資源庫

圍繞業務流程和研判分析等應用需要,基于基礎資料和綜合關聯資料,按照一般地級市警察局不同的應用側重點,分類研究制定不同的資料組織政策和技術實作方法,建設形成流程應用和專題研判兩大應用層面資料資源庫。建立具有專題性質和關聯關系的表。主要包含三個功能子產品:a、行篩選。b、列篩選。c、表關聯。通過行篩選可進行内容的篩選,如籍貫選擇:新疆。通過列篩選可選擇需要建立專題表所包含的字段,将無用字段進行剔除。通過表關聯将資料進行邏輯上的打通,實作資料間的關聯。專題庫可對外開放給業務人員進行資料接口的調用。

1)類目标庫

類目标庫按照公安“五要素”的資料大類分類習慣,分為“人、車、地、物、組織”五大類,可根據業務要求對要素分類進行重新歸類整合。

2)專題目标庫

專題目标庫按照資料的業務分析研判使用習慣,包括“涉恐重點人員專題庫”、“高危車輛活動彙集專題庫”、“涉穩情報線索專題庫”、“重大安保專題庫”、“關系人員專題庫”、“人車布控專題庫”等,可根據業務要求無限制拓展專題庫種類和範圍。

此外專題庫的分局包括但不限于以上的内容,可在項目執行過程中不斷細化分類。

3)全文資源庫

在完成基礎資料資源庫、綜合關聯資源庫和應用資料資源庫建設的基礎上,按照資料資源邏輯關聯、內建共享的目标要求,建設統一的标化共享全文資源庫,用于描述存儲其他資料中心開放共享和局方開放給其他資料中心共享的各類資料資源目錄清單、共享服務方式和調用路徑等資訊。在基礎資源庫上進行二次抽取建立的全文庫,目的為進行全文檢索的底層庫。進行資料庫全文檢索時僅可檢索出全文庫中的資料。并在全文庫中建立一級目錄便于在全文檢索結果中進行分類查找。在建立全文表時需選擇首頁展示字段,在全文搜尋的結果的第一頁面進行展示。

資料資源目錄的建設可以使資料的管理者清楚知道目前的資料總量、資料類型、資料來源以及友善的查找每種類型資料的擷取方法擷取路徑。能做到友善的數理淘金。

2.4.6、資料監管服務

資料監管服務包含了資料運維監管和資料品質監管兩大部分。

資料品質監管:資料作為資訊化應用的主體,本身具有多重特性,不僅有适用性、準确性、完整性、及時性、有效性等品質特性,還具有可取得性、可銜接性、可解釋性、客觀性、專業性、可比性等非品質的應用屬性。

所采集原始資料的真實性是確定整個統計資料品質的基礎。要對資料品質進行較好地控制,就必須對資料的品質特性進行很好了解,進而在各個方面采取措施,杜絕資料品質問題的出現,使資料監督工作能夠真正達到控制資料品質的目的。

資料品質管理可以根據使用者的業務規則和邏輯,通過大量内置的品質校驗模型對原始的業務資料進行檢查,并生成品質檢查報告。業務人員可以根據品質檢查報告及時修正原始的業務資料,提升業務資料的完整性、一緻性、準确性等品質問題,實作改善資料品質的目的。

産品能夠分析多種類型的資料源,包括國内外主流的資料庫Oracle/MySQL/SQLServer /DB2/Sybase/Netezza/HIVE/HBase/神通/達夢/金倉/通用等;支援 txt/csv 格式的文本資料源校驗。同時,可以通過擴充接口配置,提供擴充新資料源功能。

業務資料檢查

通過資料挖掘分析出異常資料對異常資料進行檢查

品質模型管理

品質模型管理主要負責管理業務校驗模型,功能包括建立校驗模型、修改校驗模型、删除校驗模型、搜尋校驗模型、校驗模型分組管理以及分發校驗模型。

品質規則管理

品質規則管理主要負責管理系統的品質校驗規則,包括對資料品質規則的建立、删除、修改、導入導出等,同時提供品質規則分組管理功能,便于對資料品質規則進行分類。

品質規則擴充

系統除了内置大量已有的通用品質規則以外,還應支援品質規則的自定義擴充能力。允許使用者依據具體的行業特性自定義擴充校驗規則,具體擴充方式包括正常校驗規則,正規表達式校驗規則和 JavaScript 表達式校驗規則等。

校驗次元管理

産品提供完全基于 web 方式的管理和配置,可以提供多種校驗次元,包括表間校驗、表級校驗和字段級校驗三種。以上三種不同的校驗次元均需内置大量常用的校驗規則,滿足日常的資料校驗需求。

資料品質監控

資料品質監控是對任務最近執行情況的管理與跟蹤,主要包括了快速搜尋任務、運作校驗任務、檢視校驗報告、檢查規則、重置值域緩沖資料等功能。

品質報告管理

針對資料品質校驗結果,系統可以出具品質校驗報告,報告可以提供線上查閱的功能,能夠詳細展示每次校核任務的執行結果,判斷資料品質問題的具體細節,同時,使用者可以通過頁面下載下傳所有的錯誤資料,便于業務人員進行資料修正。

資料品質分析

可以友善的檢視各個資料源和某一時間段内的資料健康情況和排名統計,以及系統資料的規則數統計和問題資料量統計等資訊,便于使用者宏觀地掌控系統資料品質情況。

同時,系統提供“資料品質評估統計結果”,“資料品質分數走勢圖”和“問題資料占比走勢圖”等統計功能。

錯誤資料入庫

允許使用者通過系統配置自定義錯誤資料寫入的目标庫。在資料品質校驗後, 産品将錯誤資料自動寫入目标庫中,使用者可以在資料庫中檢視所有錯誤資料。

規則權重管理

允許使用者自定義校核規則的權重,即可以自定義某一個校驗規則的全局權重值,也可以自定義某一個校核方案中具體規則的權重值。成功設定權重值後,品質校核的打分将依據最新的權重值進行計算。

多種碼表管理

産品提供資料品質校核碼表管理功能,支援業務碼表管理和系統碼表管理。業務碼表管理可以根據使用者自定義的資料源,通過 SQL 語句自定義碼表内容;

系統碼表可通過 excel 模闆的填寫,批量地導入碼表内容。

前置任務管理

前置任務管理完成服務間的聯系,實作服務間通信,收發業務模型。提供對前置任務的建立、修改、删除等功能。

任務排程管理

針對執行頻率較高或者執行時間較固定任務,可以利用排程管理功能進行精細的作業排程。

産品提供建立排程和關聯任務模闆的功能。使用者可以使用這些功能定義多個排程,并将排程與品質校驗任務關聯,實作品質校驗任務根據排程政策自動執行。

資料運維管理:監控平台運作、标準建設度、資料內建異常動态、代碼差異統計動态、資料品質統計動态、以及資料庫關聯監控;可線上化動态生成資料模型拓撲、資料流向拓撲圖。可實時監控資料的動态。平台運維為系統管理者對系統運作狀态,資料情況,服務使用情況提供監測界面;提供任務排程機制,對任務進度情況進行實時監控;對任務做配置操作,如資料更新方式、任務排程周期等。

監測界面包含平台監測和資料監測,其中平台監測展示叢集伺服器運作的狀态,包含CPU、記憶體、15分鐘負載、HDFS的空間占用率,并對Hadoop運作元件進行監控,及時掌握系統的運作狀态。資料監測為對系統中錄入的資料和接口服務狀态進行可視化統計和展示,包含錄入資料總量、錄入表總量、本周資料增量、上周資料增量、所錄資料來源分布圖、資料趨勢圖、服務申請TOP10、服務申請統計。(可視化部分需與指揮中心大屏顯示系統進行對接)。任務排程實作對資料錄入、同步等在執行任務進行任務跟蹤和任務的配置。通過資料跟蹤可檢視正在執行任務的進度和狀态,可進行啟停操作。通過任務配置,将任務排程機制進行配置和修改,保障系統資源占用合理。

2.4.7、統一的資料服務

資料服務是靈活的資料虛拟化平台産品,可以将共享資料通過 Web 頁面快速封裝成 API 接口,以 API 接口形式對外提供資料服務。通過實時統一的資料通路入口提供資料服務,一方面可以屏蔽共享異構資料的複雜性,同時也大幅降低了傳統寫死共享接口的工作量,顯著縮短項目工期。

此外,資料服務系統應具備完善的權限控制能力,可以滿足使用者在多種複雜的應用場景中對資料通路和内容安全的權限控制需求。整合智能資料中台的資料服務能力,快捷的将已有能力授權給外部應用通路使用,服務于各業務系統。提供資料服務資源注冊、審批管理,并面向應用開發者提供資料服務申請、授權管理的系統。服務資源管理既可以注冊由本地資料倉庫服務接口系統提供的資料服務,也可以注冊來自其他系統提供的資料服務

系統應采用業界先進的設計理念和成熟的技術路線。架構設計遵循自主可控、安全、高效、開放、穩定的原則,確定整個産品平台的安全性、高效性、易用性、可擴充性和可維護性。其系統功能架構如下所示:

企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

産品的系統架構可以分為以下幾個部分:

執行引擎:在執行引擎中,系統具備完善的适配子產品,可以适配國内外主流的關系型資料庫、擴充支援檔案資料源以及 NoSQL 資料源等。使用者可以依托産品提供的各功能子產品完成資料接口封裝,權限控制以及 OData 解析等功能。

控制台:控制台負責為使用者提供多種管理和監控功能,包括 API 接口調用情況的監控、API 接口維護管理、使用者管理和中繼資料管理等。

第三方接口:系統提供了種類豐富的第三方服務接口,包括 API Gateway 接口以及服務內建類的接口等。通過上述服務接口,使用者可以在第三方系統中進行産品的內建和二次開發,以滿足使用者不同業務場景的功能需求。

  • 資料源管理

産品具備國内外各類主流資料庫的通路能力,包括 Oracle、MySQL、SQLServer、DB2、Sybase、PostgreSQL、HBase、神通、達夢、金倉、南大通用等等。同時也支援靈活擴充新的資料源類型。

  • 資料釋出

支援基于國際通用的 OData V4.0 标準釋出 REST API 标準接口。多表關聯

産品既可以針對單表的應用場景釋出共享服務接口,也可以針對多表關聯的複雜場景,提供資料服務接口的封裝,并提供查詢、插入、修改和删除等功能。此外,針對多級嵌套的關聯查詢場景,允許使用者在任意的嵌套層級中過濾和

  • 篩選資料。安全管理

産品可以提供完善的資料安全管理能力,具體包括:

設定接口類型:完全公開、需要申請、不公開。

設定接口請求類型:全部、查詢、新增、修改、删除

設定資料資源項是否隐藏:針對資料資源中的某一項,管理者可以設定為對外公開或者對外隐藏。

設定查詢條件:管理者可以通過自定義 where 查詢條件,隻傳回滿足查詢條件的資料資源,而非全部資料,滿足資料安全控制需求。

提供必填列校驗,過濾列篩選校驗以及必填過濾列校驗等。

使用者級别權限控制:針對同一個接口,管理者可根據不同的申請使用者,設定傳回不同的字段列,也可以通過 where 查詢條件,設定隻傳回滿足查詢條件的資料資源。

  • 加密解密
  • 通路控制

産品能夠以白名單的形式控制 IP 位址通路權限,不在 IP 位址白名單内的伺服器無法調用 API 接口。

通路位址控制功能應提供兩級設定,包括全局設定和使用者級别的白名單設定。全局設定裡的白名單可以針對所有使用者都起作用。使用者級别的白名單功能,可以針對某一個使用者,指定允許調用接口的合法 IP 位址。

  • 調試功能

産品内嵌資料服務調試功能,可基于自定義的條件格式和資料内容調試服務接口,便于使用者實時掌握接口的健康狀态。

  • 審計日志

産品将使用者對資料服務的調用時間、調用行為、調用結果、用戶端 IP 和登出系統時間等資訊都可以持久化到資料庫中,形成審計日志以便後續查詢審計。

此外,資料服務系統應具備完善的權限控制能力,可以滿足使用者在多種複雜的應用場景中對資料通路和内容安全的權限控制需求。

服務平台實作的功能要求:

目錄服務:在目錄服務子產品中,産品對所有資料資源提供統一的中繼資料管理功能。同時,該子產品提供了資料資源的注冊、釋出、稽核、申請和訂閱等全流程管理功能,滿足資料資源日常管理需求。

浏覽檢索:提供資料資源的全局檢索和資料地圖浏覽功能。

管理監控:提供目錄管理和統計功能。

服務接口:系統提供了種類豐富的第三方服務接口,包括管理內建服務接口,以及下載下傳服務接口等。通過上述服務接口,使用者可以在第三方系統中進行産品的內建和二次開發,以滿足使用者不同業務場景的功能需求。

統一資料服務系統具備如下特點:

集中的服務開放門戶:提供集中的能力服務門戶,提高能力使用效率,降低 服務搜尋成本。

統一的服務分享平台:統一彙聚已有的資料和能力,形成彙總視圖,供内外 部應用與檢索。

統一的能力出入口:快捷的将已有能力授權給外部應用通路使用,是整個資料中台生态的統一能力出入口。

标準化的能力支撐平台:建構資料服務能力、應用服務能力、消息服務能力的 标準化釋出模闆,降低二次學習成本。

2.4.8、資料共享交換服務

資料交換系統,負責相關資料的傳輸、交換、格式轉換的工作,即資料交換平台,是整個系統的核心支撐。

通過資料交換平台将各個參加節點部門的業務資料彙總到資料中心。利用交換平台實作異構系統的資料采集、可靠資訊傳輸等功能。利用平台提供的擴充卡功能實作對資料的抽取、加載、格式轉換等功能。根據資訊資源總體架構建設要求,空間地理資訊庫、人口基礎庫、法人基礎庫、案件資訊資料庫等都是資訊資源的重要組成部份,為此對資料交換平台提出了支撐多個交換域、形成資訊資源交換體系的基礎要求。

資訊資源交換體系建設的核心内容,就是建設資訊資源資料交換平台,交換平台是資訊資源交換體系的樞紐,通過交換平台與各部門、部門行業專用交換平台實作互聯互通,構成支撐跨地區、跨部門資訊交換與業務協同的基礎設施。資訊庫系統由交換資訊庫、共享資訊庫組成;資料交換平台由交換橋接子系統、前置交換子系統、交換傳輸子系統、交換管理與監控子系統組成。通過交換橋接子系統将部門需要交換的資訊交換到前置交換資訊庫,在交換管理子系統的流程控制下,通過交換傳輸子系統、前置交換子系統,把需要交換的資訊定向傳輸到接收部門。

資料交換平台涉及三類不同的角色,分别是:

(1)參與資訊交換的政務部門負責建立交換橋接系統(業務系統接口系統),實作内部業務系統與交換資訊庫内容的同步。

(2)跨部門資訊交換協同應用牽頭部門負責對經過資訊交換平台采集的資訊資源的整合、處理、管理與使用,負責本交換域内的交換業務管理。

交換平台支援分布式前置交換和人工上傳集中式交換兩種交換模式。

1.分布式前置交換

對于資訊化建設水準高,業務系統及業務資訊庫完善的部門,安裝交換前置機,将交換平台與部門業務系統隔離開來,保證部門業務系統與業務資料庫的獨立性,同時保證部門業務網絡、業務系統的安全。交換前置機上安裝部門前置交換資訊庫,儲存部門對外交換共享的資料和從交換平台接收的資料。部門業務應用資料庫與前置交換資料庫之間通過資訊交換橋接實作交換資訊的實時同步。

2.人工上傳集中式交換

對于資訊化建設基礎相對較差,業務資訊系統建設不完善的部門,采用人工上傳/下載下傳的方式實作集中式交換。發送資料時,利用資訊交換交換中心的資料上傳網站,部門将需要交換的資訊以XML、文本檔案、EXCEL檔案形式上傳到交換中心,交換中心配置的擴充卡将上傳的資料發送到資訊交換平台,并經資訊平台發送到相應部門。接收資料時,由交換平台負責生成資料交換檔案儲存到指定的目錄,部門通過資料上傳網站下載下傳所需資料檔案。

資料交換平台,以多個部門為交換節點,各交換節點各自負責部門内縱向資訊彙聚與分發,通過資料交換平台實作多部門的資料共享與交換。

總體建設架構包括:交換網絡、交換前置機、前置交換資訊庫、資訊交換平台、資訊交換橋接等。其中的交換網絡基于市電子政務外網。

(1)交換網絡:連接配接各交換節點前置機、交換中心交換伺服器的網絡。

(2)交換前置機:由作業系統、前置交換資訊庫、資訊交換通訊接口、前置交換安全管理子產品組成。

(3)前置交換資訊庫:各參與交換部門及交換中心之間共享資訊雙向交換的中轉資料庫。包括部門對外釋出的資訊和從其他部門接收的資訊。

(4)資料交換傳輸:實作不同部門前置交換資訊庫之間安全、可靠、穩定、高效的資訊交換傳遞系統。

(5)資料交換橋接:由部門業務應用資訊庫到前置交換資訊庫之間的資訊交換橋接接口,以完成兩個資訊庫之間的線上實時交換。

(6)資料交換路由:實作市區兩級資料交換平台的對接。

(7)管理與服務系統:由資料比對、交換庫管理與維護、日志管理、使用者及權限管理、資料備份以及對整個交換運作情況的監控等部分組成。

系統總體架構如下:

企業數字化轉型之資料中台架構、大資料支撐平台、資源庫建設方案

圖:系統總體架構

如圖所示,資料交換平台依托于電子政務網絡,由交換橋接子系統、前置交換子系統、交換傳輸子系統、交換路由子系統、交換管理與監控子系統等組成。各參建機關通過前置交換系統接入交換平台,通過交換平台完成資料的共享與交換,通過交換平台的交換路由子系統實作與資料交換平台的無縫對接。

前置交換子系統

為確定各部門的原有系統的運作不被資源整合所影響,保障原系統的資料安全,使用前置機作為各部門與資料交換平台進行資料交換的視窗,也可認為它是各部門的業務系統與資料交換平台之間的資料流動中轉站。它一方面從各業務系統提取資料,向資料中心送出;另一方面從資料中心接收資料,并向業務系統傳遞資料。同時,前置機也具備緩存交換資料,對資料進行過濾、加工和展現的功能。這樣可以有效規避潛在的資訊安全風險。它由網絡通信系統、作業系統、交換資訊庫、前置交換環境、交換服務配置工具等組成。

公安、計生、勞動、民政、衛生、工商、質監、國稅、地稅等部門配置交換前置機,成為與資訊交換總線相連接配接的橋梁,同時也是與部門内部業務系統及業務資訊庫相隔離的“堡壘”。在部門前置機上安裝前置交換資料庫、應用擴充卡系統以及橋接系統,用于實作資訊的發送和接收。

(1)前置交換資料庫

部門交換前置機安裝MySQL資料庫作為部門前置交換資訊庫。部門前置交換資訊庫,即為部門業務資訊采集庫,通過橋接系統将部門資訊導入到部門業務資訊采集庫中。

(2)應用擴充卡系統

部門交換前置機安裝應用擴充卡系統。應用擴充卡系統負責自動從部門前置交換資訊庫提取資料發送到資訊交換總線,同時,從資訊交換總線上擷取資訊并存儲到部門交換資訊庫。

(3)橋接系統

部門交換前置機上的橋接系統,實作部門業務資訊庫與部門交換資訊庫之間的資訊交換橋接功能。

(4)交換傳輸子系統

交換傳輸系統即消息總線系統,作為前置交換系統之間的資訊交換通道,實作交換資訊的打包、轉換、傳遞、路由、解包等功能。

(5)交換橋接子系統

交換橋接系統是部門業務資料對外共享的雙向接口。它負責将部門業務資料提取到前置交換系統中;也負責将前置交換系統中共享資料導入業務部門。

資料交換平台是系統間無縫共享資料、連通資訊孤島的高速公路,由資料交換管理子產品、核心中繼資料審批子產品、擴充卡子產品、資料傳輸設計子產品,權限設計子產品,安全性和穩定性子產品,易擴充,易用性子產品組成,提供點對點的資料共享機制,有效的減輕了中心負擔,實作系統的負載均衡,保證資料安全可靠高效的轉遞。

資料共享交換系統也包含資料中台内部系統間的資料交換共享,采用B/S模式設計;實作了集中管理靈活配置,使用者隻需通過簡單的操作,就可完成資料共享交換的配置。通過擴充卡圖形化拖拽的方式,簡單的配置來實作。

系統采用SOA架構,很好适應未來的擴充需要。可以友善的擴充節點數量,在伺服器上部署新的資料交換應用和更新資料交換原有應用。對傳統的消息中間件進行了改進,實作節點的熱部署,熱配置。能實作節點的一次性添加。

檔案交換引擎:提供基于檔案交換任務的大檔案交換能力,提供檔案交換故障恢複、檔案斷點續傳能力。

庫表交換引擎:提供基于庫表交換任務的大資料量交換能力,提供庫表交換故障恢複、資料續傳能力。

檔案交換任務服務:提供檔案交換任務配置服務,包含定期交換任務、按需交換任務。

庫表交換任務服務:提供庫表交換任務配置服務,包含定期交換任務、按需交換任務。

檔案交換監控:提供檔案交換過程的監控分析,確定檔案交換過程的透明、可控。

庫表交換監控:提供庫表交換過程的監控分析,確定庫表交換過程的透明、可控。

2.4.9、資料中台服務可視化服務

基于H5的可視化圖形及互動引擎。支撐完成可視化元件建構、渲染、呈現及生命周期管理,支撐元件間消息通信、參數化、預警等基礎功能。

基于H5的豐富的可視元件庫。包括多 種基于可視化引擎開發的豐富、立體、全面的可視化圖形庫,同時支撐2D呈現能力,支撐靜态和矢量圖,支援資料動态綁定。元件可複用性強,可基于此元件組裝配置複合元件,可在應用主題中按需組合配置。

可視化元件線上配置。提供可視化元件線上配置界面,使用者可通過浏覽器自行配置可視化元件布局、大小、顔色、狀态、皮膚、自适應性名額等,配合的生效範圍可控制在使用者級、系統級。

可視化元件動态關聯。提供可視化元件互相通信、參數傳遞易用性配置方法,允許客戶定制化元件間參數傳遞及互動邏輯。

本次資料中台的可視化主要支隊的是資料彙聚和服務調用的可視化展示。

資料彙聚可視化展示:可通過地圖化的方式,可視化的展示,資料總量,資料類型,每種資料的來源等,提供了資料标注,及資料報警提示功能。

服務調用可視化展示:可呈現近一天、近一周、近一月的各類服務類型的調用彙總情況,包括服務所屬應用服務名稱,調用應用名稱,總調用次數,成功調用次數等。通過儀表盤提供資料服務系統概覽,包括“資料源數量”、“接口數量”、“使用者數量”等資料。此外,儀表盤還應提供“接口通路趨勢圖”、“使用者通路 TOP”、“接口通路 TOP”等分析資料,并允許使用者自定義時間段進行關聯資料的統計分析。

2.4.10、大資料支撐平台

大資料支撐平台是整個虎丘公安大資料體系架構的基礎,其建設目的就在于為資料存儲、資料處理、分析應用搭建環境以及所有的功能元件支援。支撐平台既承載了公安資料的管理,為上層公安應用提供資料支撐。它統一管理、集中存儲了公安的各種資料,保證資料品質。同時提供多種資料計算引擎供應用選用,以更好挖掘資料價值。

建立全局大資料基礎支撐平台,包括Hadoop大資料分布式架構、分布式緩存資料庫、全文檢索庫等,需滿足全局各機關的資料需求和應用需求。建成後能夠實作大資料的存儲、實時分析挖掘、離線分析挖掘、線上查詢統計及全文檢索等功能。

Hadoop大資料支撐平台的主要要求如下:

(1)實時計算服務:基于Spark、Kafka提供流式實時計算。提供标準JDBC接口,友善上層服務接口通路底層資料,通過查詢服務接口,實作高效查詢效能。基于Sqoop實作不同來源資料接入,将資料以檔案形式分布式存儲在HDFS中,包括曆史資料,增量資料;

(2) 離線計算服務:基于MapReduce以及Hive提供離線計算服務,對海量資料提供複雜批處理;

(3) 分布式緩存資料庫:提供實時比對服務和搜尋算法,滿足實時比對、布控業務場景要求;

(4) 全文檢索:提供實時檢索服務,基于ElasticSearch的全文檢索引擎架構,提供完整的查詢檢索和索引檢索,實作分布式全文檢索功能;

(5) 需要提供可視的各個元件的監控管理UI平台。

具體技術參數名額要求:

(1)開放性,成熟性要求

必須是采用目前先進且成熟技術的,具備分布式叢集擴充能力的資料管理系統産品,并符合未來大量新增資料管理技術的發展潮流;

(2)海量資料處理和高性能要求

資料中心應有強大的處理能力,應遵循主流大資料處理架構(Hadoop架構),支援先進記憶體資料分析引擎(Spark),支援基于Hive的資料倉庫建設,能夠支援多計算節點并行處理,支援的大資料元件包括DFS、Hive、Spark、HBase、Sqoop、ZooKeeper、ELK、Kafka、Flume、Pig、Mahout、HAWQ、PXF、Oozie、Storm、Accumulo、Atlas、Kerberos、Ranger及KMS等。

提供單節點多隊列服務機制,最大程度發揮每個計算節點的處理性能;應能在系統資源低負擔的條件下提供最高的并發度和最大的吞吐量;在叢集環境中支援節點内和跨節點并行處理技術;

應支援大資料量處理的資料分區等優化大資料量處理的技術,支援資料分區,表分區、多元資料分區等分區技術,分區方式不受CPU數量、節點數量等影響;

(3)可靠性和高可用性要求

應支援7×24不間斷的運作處理;

支援靈活的資料備份/恢複功能,支援多資料副本,單一磁盤損壞時,資料不丢失,業務不中斷;

應提供軟體容錯機制,包括資料庫、日志鏡像、自動恢複和叢集機制,具有高度的資料可靠性、容錯能力、完整性和有效性;

平台軟硬體系統平均無故障運作時間(MTBF)≥2000小時,平均故障修複時間≤2小時,系統可用度≥99.9%。

(4)可擴充性要求

應支援叢集服務節點擴容功能,支援叢集中節點的存儲擴容功能,支援自動負載均衡;

最大可擴充節點數目應大于256個,有大于32節點的測試結果或大于4個結點的應用執行個體可參照。

(5)安全性要求

應達到多級安全控制,支援資料存儲加密、資料傳輸通道加密;

應支援存取控制、身份識别、角色劃分、追蹤審計等安全機制;

軟體公司負責在軟體代碼設計、賬号權限管理、系統配置等方面確定通過等級保護要求和風險評估測評。

(6)易管理性要求

提供統一的圖形化資料中心管理工具,可對資料中心網絡上的硬體平台和軟體系統進行集中式的統一管理;

可以提供圖形界面的資料性能監控和動态性能調整等功能,具有對軟體系統自動參數調優功能;

支援對資料中心服務元件的啟停狀況、元件叢集的運作狀态進行監控;

支援對資料中心資料管理工具進行圖形化界面參數配置,支援一鍵安裝、一鍵擴容。

(7)相容性要求

要求保證投标産品為目前主流産品,并保證未來至少5年的持續研發能力和擴充能力,并提供與未來替代産品的平滑遷移能力。

(8)性能要求

本期項目各業務處理部分依靠網絡和集中部署的分布式計算機系統實作。要求具備較強的分布式資料處理計算能力;伺服器并行處理和資料叢集處理能力。系統使用者通路性能:使用者并發數≥500;要求系統能迅速的對使用者響應,在峰值網絡連接配接情況下,響應時間≤3秒。峰值網絡連接配接情況下,發送、接收5M檔案≤5秒(假設失敗重傳率達到20%)。每發送/接收小于10M的資料發送/接收成功率應在99.9%。

 資料檢索性能:要求對檔案或資料的全文檢索;3秒内傳回檢索結果;要求分布式高效檢索,可以通過擴充節點增加檢索性能;要求針對專題資料或指定資料表的全文檢索,3秒内傳回檢索結果;要求實作針對不同資料類别進行進階檢索,3秒内傳回檢索結果;

 資料可視化展現性能:資料可視化前端展示頁面,要求每個頁面加載時間≤3秒。

繼續閱讀