在
大資料這個詞出現之前,我們對日常資料的這種處理和分析,常常使用的一些類
似SQL server、
MySQL Oracle等等這些關系資料庫,傳統的這些資料庫處理T級别資料量已經是這些資料庫的極限,面對這種P級和E級的資料量,基本上是無能為力。
一直到2005年,提供大資料基礎能力的Hadoop項目出來,從技術層面上搭建了一個對非結構化和複雜資料快速可靠分析,變為現實的一個技術平台,從這個時候開始,大資料才成為網際網路資訊科技裡高頻的熱詞;
2.什麼是大資料,大資料有哪些特征
不管我們是不是大資料的專業人士,在這個資訊時代,我們都要了解一些大資料的概念,小到店家,大到國家都在講大資料,不過真正搞清楚什麼是大資料的人,還不是太多;
對于大資料的概念,我們引用世界著名咨詢公司麥肯錫對它的描述:
大資料是什麼?
麥肯錫的定義:“一種規模大到在擷取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有4V特征”
4V是什麼?
Volume海量的規模;
Velocity快速的流轉
Variety多樣的類型
Value低密度的價值
二.怎樣制定企業的大資料戰略戰略是我們工作的指導,一定有正确的戰略才能做戰術上的執行,戰略錯了,那麼一切戰術都是等于0,這裡總結了大資料的6大戰略;
1.決策戰略先了解所在企業的背景狀況:比如企業是民企、國企還是上市公司,規模有多大,有多少員工,大資料僅僅是錦上添花還是已經具體的發揮了它的價值;在決策企業是否上大資料項目的時候,以及投入多少的問題上,這些問題都需要考慮清楚的;
2.時機戰略就是企業什麼時候開始投入大資料建設
3.人才戰略 4.選型戰略是自建IDC資料中心、自建私有雲,還是選擇阿裡雲(騰訊雲等等)共有雲這個平台
5.平台戰略就是我們先選擇搭建一個平台還是先實施一個應用的問題。
一個原則:離錢越近,越要早做;
6.管理戰略關于資料是否可再生的問題:就是如何采集資料、如何存儲資料、資料是怎樣應用的,資料安全,使用者隐私安全問題的保障;
三.企業如何進行大資料平台建設無論從幫助企業營銷還是提高效率來看,節約企業成本這個角度來看,大資料有非常大的價值,大資料做好了,可以推動企業的業務突飛猛進的增長;要實作這個大資料的價值,真正讓大資料為企業創造貢獻,那我們首先要積累有大資料,把日常業務和使用者的行為資料收集起來,我們前面說過,有些資料是可再生資源,但更多的是不可再生資源,這就需要我們管理好我們的資料資産,去搭建一個資料平台,負責資料的采集,規整、運算、存儲、應用、展現等等;
1.大資料平台是由三個平台加一個服務組成的 (1)工具平台,又包括-運維平台
-資料采集平台
(2)大資料倉庫基礎平台 (3)大資料門戶,又包括-大資料分析平台
-産品應用平台
(4)服務運維平台主要負責大資料平台的業務排程、任務監控、中繼資料管理、權限管理等等,主要由圖中所示的系統組成的;二個是資料采集平台,主要負責把資料采集到大資料倉庫平台當中,企業這種大資料來源,主要從三個方面去擷取資料,從業務系統、日志采集系統、外部資料來源采集,每一個方面的來源又包含幾個途徑,如圖所示;
大資料基礎平台,傳統的也叫大資料倉庫平台,這部分是整個大資料平台的核心;
下面是大資料門戶,是內建資料成果一體化的平台,包括大資料分析平台,和大資料應用平台;大資料門戶,作為整個大資料的視窗,所有的資料研究成果,都會展現在這個資料門戶當中,這樣就極大的友善了公司職能人員使用資料;
使用者服務:使用資料的人主要包括管理人員、分析人員、營運人員、産品經理、技術工程師還有企業投資的相關方,或公司對外的資料服務,我們是通過API接口展現出來;
2.如何建構大資料基礎平台大資料基礎平台,是整個大資料平台的核心,是企業大資料加工、計算、存儲的場所,原本非常淩亂的各種各樣來源的資料,進入基礎平台之後,都會按照一定的标準,一定的規範化進行存儲,處理起來,大資料基礎平台有三個核心技術點,第一個是主題模型,第二個是層次模型,第三個是計算模型,下面會給大家一些簡單的介紹;
(1)主題模型主體模型詳細附件圖表
主體模型設計的注意事項:
大主題可以有若幹的子主題構成
主題之間不要有交叉,相同特征的要放在同一個主題當中;
主體要充分的覆寫,能夠覆寫到企業所有的業務,能夠支援所有的應用和分析的需求
(a)具備完整性 (b)主體的獨立性 (c)具備層次性 (2)層次模型層次模型通常由4個層次組成,如下圖:
(a)ODL層(操作資料層)功能是存放從業務系統之間抽取過來的資料,資料從資料結構,從資料這種邏輯關系上面,都與業務系統基本上是保持一緻的,這裡實作了透視字段一些固化的處理,像會員注冊,注冊時間,還有一些少量的基本的資料清洗,比如髒資料的一些過濾,次元的一些處理等等,最終生成了這種增量的資料
(b)BDL層(基礎資料層)該層的主要功能,是基于主題域的劃分來完成資料整合的,提供統一的資料的基礎平台,在這個層級當中,我們會完成資料的清洗、定義的分類等等的一些功能;
(c)IDL層(接口資料層)面向應用的,統一的應用接口通路平台,客戶統一視圖都在這一層級實作,該層級的重點就在于實作跨主題域的這種資料的關聯計算;在實踐當中,會涉及兩類模型,一類是為了擷取資料更容易,我們會制造一些反規範化的主題模型,我們常常看到的這種寬表模型,另一類就是為了我們實作快速的查詢,分析而建立起來的這種比較規範式的多元分析模型,它是由多個維表進行組成的;
(d)ADL層(應用資料層)提供差異化的資料服務,以滿足業務方的需求,這一層級我們可以實作一些報表,資料挖掘、産品應用等等需求;
在傳統的資料庫時代,ADL層主要在RAC(ORACLE真正應用叢集)中實作的,在大資料時代裡,我們通常會用hbase這一層的資料的存儲;
我們在工作中,為了降低次元大資料平台的負責度,我們通常把4層壓縮到3層,我們通常把ODL層和BDL層進行合并,原來分别在這兩層當中實作的一些事情,我們合并到一層裡面去實作;如下圖所示:
3.如何建構大資料門戶企業大資料門戶,是企業應用的內建一體化的平台,大資料門戶,作為企業服務的視窗,除了資料研究成果外,都會展現在大資料門戶中,進而極大的友善了我們企業個隻能人員使用、利用這個資料;
企業大資料門戶包含:
主要由精準營銷、個性化推薦等等
負責業務資料的可視化展現,智能報表,臨時取數的分析,還有多元資料分析的一些模型,比如使用者畫像、業務關鍵名額監控,還有資料挖掘模型的一些監控等等。
雲伺服器ECS位址:阿裡雲·雲小站