本節書摘來自華章出版社《智能資料時代:企業大資料戰略與實戰》一書中的第2章,第2.3節,作者 talkingdata ,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視
一個早期的對目前資訊架構完善程度的自我評估,能使一個組織深刻認識到擴充自我目前結構的能力。如果一個組織還停留在基礎資料倉庫的落實階段,那就最好不要期望通過實施大資料的項目來解決所有問題了。事實上,這樣的項目可能會妨礙業務線希望盡快解決更高優先級的問題。
在出版物中我們發現了各種各樣的關于資訊架構的完善度評定量表。一般的組織通常走這樣的路線:資料和資訊倉庫,資料和資訊的标準化,高端業務優化,資訊服務。圖2-2展示了這種路徑。
下面是每個階段過程的詳細闡述。
資料和資訊倉庫:資料在很多資料集市和工具中重複出現,主要在業務範圍内進行管理,而且經常會産生哪個資料集才是真的資料集的争論。是以,所有來自資料的結論都會受到質疑。
資料和資訊的标準化:集中管理的獨立資料集和企業資料庫由于注重資料的品質、一緻性和安全性,通常被用到報告和即席查詢上。it和商業會在資料集拓展和新市場推廣上進行合作。
高端業務優化:引入流資料來增強傳統資料源。預測分析用于更好地了解和預測決策結果上。
資訊服務:内部開發的可信賴的資料存儲和分析工具,在公司和企業以外也極具價值。客戶可以通過對生意夥伴提供支援,從業務營運中收益。使用者樂于為享受服務而付費。
這些階段并不總是按照一個連貫的順序,一些組織可能同時經曆好幾個階段。例如,一些組織經常在資料的存儲和标準化這兩個階段之間周旋,尤其是it行業的發展速度不足以滿足來自行業不斷改變的分析需求。當這種周旋發生的時候,預測分析和流動資料的增加有時會得以開發和實施。
當然,那些成功通過前三個階段的組織會創造出難以置信的商業價值。在這一點上,一些人考慮建立“訂閱”,這樣就可以和他們行業的資料整合者展開競争,因為他們開始作為服務商而提供資訊了。
當你對組織的完善程度進行評估的時候,很重要的一點就是要認識到,當你作為一個服務商從存儲發展到資訊服務時,it必須産生的角色和技巧變得越來越高端。開展新項目時,你應該考慮:為組織所采用的是不是一個有重要差別的技能,以及在擷取這些技能時所需要的投資,是應該花在這個地方,還是應該花在其他同樣賺錢卻要求比較少的項目上。
在傳統資料環境中,資料被存儲于“倉庫”裡,這限制了人們擷取資料的途徑。與其不同的是,大資料環境建立在分布式存儲的系統之中。
接下來通過運用來自各個産業的具體案例,分析了大資料對于不同産業的影響,強調了資料倉庫與大資料系統這兩種應用方式的不同。
了解目前的産業趨勢以及最佳競争者是如何重新定義這一産業趨勢的資訊構架的,對于我們建構未來資訊構架是很重要的。大資料和物聯網(iot)正在許多産業中引領一場重新定義誰是真正競争者的潮流。有些公司使用了能使閱聽人了解資料的新方法,這種新方法使他們獲得了新的業務切入點和解決方案。
最有效的資訊建構方式總是與特定某類商業問題的解決相關聯。下面是根據不同行業得出的資料倉庫項目和包括hadoop和iot的資訊構架清單。這份清單可能會給你帶來些許探索新項目的啟發,當你從事其中的某項業務時,可能會獲得巨大的投資回報。
農業
資料倉庫:農業生産和優化成本分析,産量分析,農産品定價分析,農産品貿易分析。
hadoop/iot:分析并優化耕作模式,施肥模式,收獲時節,水分含量(資料來自土地裡的傳感器和天氣預測)。
汽車制造業
資料倉庫:汽車制造的成本和數量分析,供應鍊,汽車的保修期,市場和營銷分析,人力資源管理。
hadoop/iot:顧客心理分析,車聯網,服務需要和服務排程,駕駛曆史,司機緊急監測和反應程度。
銀行業
資料倉庫:客戶對金融産品管道的感覺,财務分析,欺詐檢測,信用價值,人力資源管理,營業網點優化。
hadoop/iot:欺詐檢測,風險分析和客戶情緒分析。
通信業
資料倉庫:定價政策和财務,客戶支援和服務,營銷分析,供應鍊,物流和流程優化,合規性,營業網點優化和人力資源管理。
hadoop/物聯網:分析社交資料,移動裝置使用,網絡品質和可用性(使用傳感器資料),網絡欺詐檢測,物聯網中的擴充網絡管理和優化。
消費性包裝品(快速消費品)
資料倉庫:銷售,營銷,供應商,制造,物流,消費趨勢和風險分析。
hadoop/iot:促銷有效性分析(通過社交媒體和店内傳感器),供應鍊,運輸過程中制成品的狀态,零售産品的擺放和風險分析。
教育和科研
資料倉庫:教育科研機構的财務或設施分析,人員配置和人力資源管理,校友介紹和捐贈形式。
hadoop/iot:風險學生分析(通過傳感器資料),科研資料以及裝置監控分析和優化。
醫保承擔者
資料倉庫:護理成本,護理品質,風險和欺詐的分析。
hadoop/iot:客戶情緒,風險和欺詐的分析。
醫療機構
資料倉庫:護理成本,護理品質,人員配置和人力資源以及風險的分析。
hadoop/iot:疾病和流行病傳染模式研究,患者檢測,裝置檢測和優化,患者情緒以及風險分析。
高科技制造業
資料倉庫:供應商和分銷商分析,物流管理,産品品質和産品保修分析。
hadoop/iot:工廠中的房間生産和品質分析,部件組裝産品品質分析,産品故障和待定故障分析,自動化服務的服務請求分析。
保險(财産保險和人身保險)
資料倉庫:市場營銷分析,人力資源和風險分析。
hadoop/iot:客戶情緒分析,風險分析。
執法狀況
資料倉庫:執法暢通,犯罪資料統計,執法人員配置優化分析。
hadoop/iot:威脅執法現狀分析(資訊來源于社交媒體和視訊收集)。
媒體和娛樂
資料倉庫:觀看者偏好,頻道收視率,廣告銷售額和營銷促銷的分析。
hadoop/iot:觀看習慣分析(資料來自機頂盒),娛樂場所顧客娛樂方式分析,顧客情緒分析。
油氣資源
資料倉庫:鑽井勘探成本分析,潛在勘探點,油氣生産,人力資源和運輸優化分析。
hadoop/iot:鑽井檢測分析(包括鑽探故障預防)。
藥品
資料倉庫:臨床試驗(包括藥物互相作用研究),藥物測試對象結果分析,藥物銷售分析以及人力資源分析。
hadoop/iot:從來自醫用傳感器、普通大衆的日常生活、疾病跟蹤和基因組學研究的臨床資料進行分析。
零售業
資料倉庫:市場籃子分析,銷售分析,供應鍊、倉庫及物流派送優化分析。
hadoop/iot:全管道零售分析和顧客情緒分析。
運輸和物流業
資料倉庫:物流和客運路線分析,營銷分析,倉庫選址優化,人力資源分析和優化。
hadoop/iot:交通流量分析(資料來自高速公路傳感器),交通安全的分析和控制,裝置性能和潛在故障分析(資料來自車載傳感器),物流管理(資料來自物流傳感器),以及客戶情緒分析。
公用事業
資料倉庫:傳送方式的改善,(電、氣等資源)運輸網絡供應能力的分析和提高,客戶能源利用分析,人力資源分析和優化。
hadoop/iot:為了優化傳輸網絡并時常進行維護,對來自智能電表的資料進行分析。
需要注意的是,上述清單僅列出了2015年決定實施或已經實施的部分項目。随着各種企業逐漸發現新方法并找到解決問題的方案,這份清單也會随之改變。
在本書的後面,我們将會讨論這些項目的優先順序。一個項目要想獲得優先地位,必須要從事與計算機資訊技術(it)相關的業務。當一個項目有了優先地位時,該項目獲得成功的機率将大大提高。
在這一點上,我們已經對資訊構架的成熟度進行了自我評估,同時審議了一些未來可能發展的項目。為了拓展這些項目,我們會小幅度修改現有的資訊構架。舉例來說,如果需要的資料大部分為結構化,并且資料倉庫的基本構架是健全的,那麼僅基于這一構架做出的分析可能就是完美的。然而,基本構架往往不能滿足現實的業務需求,是以,當務之急是想出該如何應對日益增長的需求。
對現有構架進行修改的一個重要原因(你可能已經從本書的主題猜到)是為了新業務的需要,因為這些新型資料在傳統的資料倉庫中很難被分析。例如,新型資料可能包括流式資料和半結構化資料,這種資料會引入高速、大容量的資料攝取要求。這一要求可能使之前不需要的nosql資料庫和hadoop也被列入資訊構架之中。研究hadoop的資料科學家們也希望推進新興資料收集工具和資料分析引擎的采用。
如何收集外界的資料需求?如何與他人合作開發未來的資訊構架?一般是定期舉行會議(有時稱作研讨會)規劃未來事物、收集客戶需求。收集客戶的初步需求可能隻需要兩到三小時,但它卻可以确定我們今後要遵循的方向。
在研讨會中,參加者們會讨論目前的資料倉庫、商業智能以及etl工具和資料處理的解決方案等問題。也可能讨論包括伺服器和存儲器在内的基礎設施,其中,對現有元件進行更新或替換往往是第一項讨論的内容。舉例來說,如果目标資料倉庫上的etl所需的性能和資源出現問題,那麼考慮利用流資料源所需的hadoop叢集也稱為etl引擎可能是有意義的。
事實上,hadoop叢集可以成為所有資料的初始着陸點。如果想知道如何進行預測分析或者如何重新評估預測分析的可行性,可以查閱hadoop叢集進行深入了解。
在這一階段,很多技術從業人員可能會擔心,目前我們進行資訊構架的成熟度與正在規劃的前景可能極度不符。it或業務線上的技術與規劃中要求的技術有明顯差距,資料管理和操作問題也可能會随之出現。潛在成本和對預算的影響往往是it高管們最關心的問題。
在初始階段就對這些問題予以關注是有好處的。然而這隻是最初階段,我們正在建構未來資訊架構可能成為什麼樣的願景。我們所了解的業務案例還不足以確定全面地開展項目。同樣,我們對資料細節的了解也很少。在後面的階段中,我們将對前述業務案例和資料進行全面了解,同時也會更頻繁地評估所需要的技能。在我們開始建構未來的資訊架構時,将更充分地考慮潛在成本。
現在,我們隻是在探索可能性的藝術。