關于大資料最常見的10個問題，必看！

1、雲計算與大資料是什麼關系?

　　雲計算的關鍵詞在于“整合”，無論你是通過現在已經很成熟的傳統的虛拟機切分型技術，還是通過google後來所使用的海量節點聚合型技術，他都是通過将海量的伺服器資源通過網絡進行整合，排程配置設定給使用者，進而解決使用者因為存儲計算資源不足所帶來的問題。

　　他倆之間的關系你可以這樣來了解，雲計算技術就是一個容器，大資料正是存放在這個容器中的水，大資料是要依靠雲計算技術來進行存儲和計算的。

兩者關系：

　　首先，雲計算是提取大資料的前提。

　　資訊社會，資料量在不斷增長，技術在不斷進步，大部分企業都能通過大資料獲得額外利益。在海量資料的前提下，如果提取、處理和利用資料的成本超過了資料價值本身，那麼有價值相當于沒價值。來自公有雲、私有雲以及混合雲之上的強大的雲計算能力，對于降低資料提取過程中的成本不可或缺。

　　其次，雲計算是過濾無用資訊的“神器”。

　　首次收集的資料中，一般而言，90%屬于無用資料，是以需要過濾出能為企業提供經濟利益的可用資料。在大量無用資料中，重點需過濾出兩大類，一是大量存儲着的臨時資訊，幾乎不存在投入必要;二是從公司防火牆外部接入到内部的網絡資料，價值極低。雲計算可以提供按需擴充的計算和存儲資源，可用來過濾掉無用資料，其中公有雲是處理防火牆外部網絡資料的最佳選擇。

　　再次，雲計算可高效分析資料。

　　資料分析階段，可引入公有雲和混合雲技術，此外，類似Hadoop的分布式處理軟體平台可用于資料集中處理階段。當完成資料分析後，提供分析的原始資料不需要一直保留，可以使用私有雲把分析處理結果，即可用資訊導入公司内部。

　　最後，雲計算助力企業管理虛拟化。

　　可用資訊最終用來指導決策，通過将軟體即服務應用于雲平台中，可将可用資訊轉化到企業現有系統中，幫助企業強化管理模式。

　　上升到我國網際網路整體發展層面，雖然我國在網際網路服務方面具有領先的優勢，然而，越來越多的企業認識到，與雲計算的結合将使大資料分析變得更簡單，未來幾年，如能在大資料與雲計算結合領域進行深入探索，将使我們在全球市場更具競争力，這是非常關鍵的問題。

2、大資料需要什麼人才？

　　大資料需要以下六類人才：

　　大資料系統研發工程師

　　這一專業人才負責大資料系統研發，包括大規模非結構化資料業務模型建構、大資料存儲、資料庫構設、優化資料庫構架、解決資料庫中心設計等，同時，還要負責資料叢集的日常運作和系統的監測等，這一類人才是任何構設大資料系統的機構都必須的。

　　大資料應用開發工程師

　　此類人才負責搭建大資料應用平台以及開發分析應用程式，他們必須熟悉工具或算法、程式設計、優化以及部署不同的MapReduce，他們研發各種基于大資料技術的應用程式及行業解決方案。其中，ETL開發者是很搶手的人才，他們所做的是從不同的源頭抽取資料，轉換并導入資料倉庫以滿足企業的需要，将分散的、異構資料源中的資料如關系資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、內建，最後加載到資料倉庫，成為聯機分析處理、資料挖掘的基礎，為提取各類型的需要資料創造條件。

　　大資料分析師

　　此類人才主要從事資料挖掘工作，運用算法來解決和分析問題，讓資料顯露出真相，同時，他們還推動資料解決方案的不斷更新。随着資料集規模不斷增大，企業對Hadoop及相關的廉價資料處理技術如Hive、HBase、MapReduce、Pig等的需求将持續增長，具備Hadoop架構經驗的技術人員是最搶手的大資料人才，他們所從事的是熱門的分析師工作。

　　資料可視化工程師

　　此類人才負責在收集到的高品質資料中，利用圖形化的工具及手段的應用，清楚地揭示資料中的複雜資訊，幫助使用者更好地進行大資料應用開發，如果能使用新型資料可視化工具如Spotifre，Qlikview和Tableau，那麼，就成為很受歡迎的人才。

　　資料安全研發人才

　　此類人才主要負責企業内部大型伺服器、存儲、資料安全管理工作，并對網絡、資訊安全項目進行規劃、設計和實施，而對于資料安全方面的具體技術的人才就更需要了，如果資料安全技術，同時又具有較強的管理經驗，能有效地保證大資料構設和應用機關的資料安全，那就是搶手的人才

　　資料科學研究人才

　　資料科學研究是一個全新的工作，夠将機關、企業的資料和技術轉化為有用的商業價值，随着大資料時代的到來，越來越多的工作、事務直接涉及或針對資料，這就需要有資料科學方面的研究專家來進行研究，通過研究，他們能将資料分析結果解釋給IT部門和業務部門管理者聽，資料科學專家是聯通海量資料和管理者之間的橋梁，需要有資料專業、分析師能力和管理者的知識，這也是搶手的人才。

3、大資料行業的從業者是從哪獲得資料的？

　　大資料行業的從業者有多種途徑獲得資料，也就是我們常說的資料源，具體有一下幾種：

　　1、官方資料（政府部門或企業直接提供的資料或資料接口）；

　　2、半官方資料：如各類行業協會，俱樂部；

　　3、各個平台的資料：如淘寶網、京東、唯品會，有些會免費開發資料，還有一部分是付費的資料軟體；

　　4、再然後就是從業者自己收集的資料，一般都是用一些資料采集工具或軟體，工具如：爬蟲軟體，百度蜘蛛等；

　　5、最後就是購買的資料，一般有一些專門資料采集的機構，像像艾瑞、浪潮，以及傳統的調研企業。

　　資料的擷取方式有很多種，同樣，資料的使用方式也有很多種，比如說行業銷售趨勢，有人用銷售額資料，有人用銷量資料。資料就像一個任人打扮的姑娘，使用的人會選取自己想要的資料來展示，是以考量資料的真實性，一個是資料來源，還有就是資料的選擇是否合理。

4、大資料分析的常用方法有哪些？

　　1. Analytic Visualizations（可視化分析）

　　不管是對資料分析專家還是普通使用者，資料可視化是資料分析工具最基本的要求。可視化可以直覺的展示資料，讓資料自己說話，讓觀衆聽到結果。

　　2. Data Mining Algorithms（資料挖掘算法）

　　可視化是給人看的，資料挖掘就是給機器看的。叢集、分割、孤立點分析還有其他的算法讓我們深入資料内部，挖掘價值。這些算法不僅要處理大資料的量，也要處理大資料的速度。

　　3. Predictive Analytic Capabilities（預測性分析能力）

　　資料挖掘可以讓分析員更好的了解資料，而預測性分析可以讓分析員根據可視化分析和資料挖掘的結果做出一些預測性的判斷。

　　4. Semantic Engines（語義引擎）

　　由于非結構化資料的多樣性帶來了資料分析的新的挑戰，需要一系列的工具去解析，提取，分析資料。語義引擎需要被設計成能夠從“文檔”中智能提取資訊。

　　5. Data Quality and Master Data Management（資料品質和資料管理）

　　資料品質和資料管理是一些管理方面的最佳實踐。通過标準化的流程和工具對資料進行處理可以保證一個預先定義好的高品質的分析結果。

5、央行征信和大資料征信的不同之處

　　1、确實有不同之處，央行征信是傳統征信方式，大資料征信是伴随網際網路金融發展起來的。

　　2、央行征信與大資料征信差異主要從征信資料來源、權威性、資料完整性、用途等次元區分。

　　3、央行征信特點：資料主要來自銀行、證券、保險、社保等體系裡構成一個資料循環，權威性高，資料基本完整，主要用于資産評估、銀行放貸、信用卡額度等。

　　5、大資料征信特點：資料主要來自網際網路各大平台，使用網際網路技術抓取或接口合作擷取征信資料，資質再好一點的企業可以申請接入央行征信，權威性不如央行征信，但随着網際網路金融的發展會越來越重要，資料完整性各大資料征信平台不同，主要用于網際網路金融，例如P2P，如果p2p拿不到央行征信資料風險會很大。

　　6、展望未來：随着網際網路金融的發展，大資料征信與央行征信會不斷融合直至融為一體，真正的滿足資料的完整性，那違法犯罪基本就真的大大減少了，信用真的就是錢！

6、如何建構銀行業大資料分析平台？

　　一是銀行與電商平台形成戰略合作。銀行業共享小微企業在電商平台上的經營資料和經營者的個人資訊，由電商平台向銀行推薦有貸款意向的優質企業，銀行通過交易流水、買賣雙方評價等資訊，确定企業資信水準，給予授信額度。建設銀行曾在這方面做過有益的嘗試。此外也有銀行參股電商、開展資料合作的案例。

　　二是銀行自主搭建電商平台。銀行自建電商平台，獲得資料資源的獨立話語權。在為客戶提供增值服務的同時，獲得客戶的動态商業資訊，為發展小微信貸奠定基礎，是銀行搭建電商平台的驅動力。2012年，建設銀行率先上線“善融商務”，提供B2B和B2C客戶操作模式，涵蓋商品批發、商品零售、房屋交易等領域，為客戶提供資訊釋出、交易撮合、社群服務、線上财務管理、線上客服等配套服務，提供的金融服務已從支付結算、托管、擔保擴充到對商戶和消費者線上融資服務的全過程。

　　三是銀行建立第三方資料分析中介，專門挖掘金融資料。例如，有的銀行将其與電商平台一對一的合作擴充為“三方合作”，在銀行與電商之間，加入第三方公司來負責資料的對接，為銀行及其子公司提供資料分析挖掘的增值服務。其核心是對客戶的交易資料進行分析，準确預測客戶短時間内的消費和交易需求，進而精準掌握客戶的信貸需求和其他金融服務需求。

　　銀行業有處理資料的經驗和人才。大資料學習扣qun74零零加【4 1 8八yi】資料分析和計量模型技術在傳統資料領域已得到較充分運用，同時也培養出大批精通計量分析技術的人才。如在風險管理方面，我國金融監管部門在與國際接軌過程中，引入巴塞爾新資本協定等國際準則，為銀行業提供了一套風險管理工具體系。銀行在此架構下，利用曆史資料測度信用、市場、操作、流動性等各類風險，内部評級相關技術工具已發揮出效果，廣泛應用于貸款評估、客戶準入退出、授信審批、産品定價、風險分類、經濟資本管理、績效考核等重要領域。

7、為什麼需要大資料技術？

　　大資料到底是什麼？我們為什麼需要大資料技術？

　　Mike Jude：從本質上來說，大資料就是曾經被稱為資料倉庫的邏輯延伸。顧名思義，大資料就是一個大型的資料倉庫，一般有一個能支援業務決策的業務重點。但是，它和傳統資料庫不同的是，大資料不用建構。

　　在典型的資料庫中，資料會被組織成标準的字段，并使用特定的密鑰索引。如果你熟悉Microsoft Access應用程式，那麼你就能完全了解這個概念。比如，一個顧客記錄可以由姓氏、名字、位址和其它資訊組成有通用标簽的字段。每個顧客記錄樣式都是相同的，這樣可以通過使用搜尋關鍵詞來檢索，比如搜尋姓氏。

　　現在，如果你想連結到這些客戶記錄需要怎麼做？連結到客戶的圖檔或者視訊呢？如果是連結到客戶的所有記錄呢？

　　将這麼多不同的資料源互相映射，一般的資料庫還做不到。另外，需要連結的資料量是非常巨大的。這就産生了“大資料”的概念。大資料使用特殊的資料結構來組織和通路巨大數量的資料，可能達到多個艾位元組的範圍。一般情況下，這需要跨多個伺服器和離散資料存儲進行并行計算，而小企業往往難以維持這種大資料的存儲庫。但是，大資料正逐漸成為雲服務提供商能提供的一種服務，進而把大資料應用推向更多的公司。

　　但是，還有一個“大”問題，就是我們為什麼需要大資料？答案就是相關性的價值。如果你能看到乍一看似乎沒什麼關系的資料設定之間的關系，你會擷取很多重要資訊。比如你想知道你的公司是不是容易被黑客利用。那麼你需要跨多個應用程式和資料中心檢查無數條交易。這時如果沒有大資料技術和相關的分析技術，這幾乎是不可能完成的。

　　最終，随着資料量的增長、業務的可用性和重要性的增加，大資料的定義可能會用來描述大多數資料庫應用。IT專業人士應該掌握大資料相關概念和術語，以免遇到困難。

8、企業大資料如何起步？

　　大資料應該是從小資料逐漸演變上去的，是一個正常的生态，而不是瞬間變化的。

　　大資料這個概念跟自媒體的概念類似，需要企業自己去建設，而不是從一開始就想着依靠别人。很多企業在談自媒體的時候，像談别人的事情一樣。比如一談自媒體，就覺得那是第三方提供的一個平台，大家在那兒發發牢騷。自媒體是自己的媒體，企業自己也要參與進去。同樣大資料不是别人的大資料，我們假設有一個第三方提供了大量的資料，有很多很多資訊，CI、BI之類的很多子產品化東西供我們來用。如果這樣的話，你有，競争對手也有，你能得到的東西，競争對手也能得到的情況下，就不能稱之為核心競争力。

　　大資料作為企業來說要變成自身的一個競争力，企業必須得建立自己的企業級的資料。

　　要做大資料，首先要了解自己的企業，或者自己所在的行業的核心是什麼。我們現在經常發現，有很多企業在競争的過程中，最終不是被現在的競争對手打敗，而是被很多不是你的競争對手所打敗。很簡單的一個例子，大家都認為亞馬遜是做電商的，但這是錯的，它現在最主要的收入來自于雲（雲服務）。也就是說企業需要找到自己的核心資料（價值），這個是最關鍵的。隻有在這個基礎上，建立自己的大資料才有可能，才能做一些延伸。其次，要找到内部的一些外圍相關資料，去慢慢地成長它。有點像滾雪球，第一層是核心，第二層是外圍相關的資料。第三層是什麼？就是外部機構的一些結構化資料。第四層是社會化的，以及各種現在所謂的非結構化的資料。這幾層要一層一層地找到它，而且要找到與自己相關的有價值的東西。這樣你的大資料才能建立起來。

　　第一步，找到核心資料。核心資料現在對很多企業來說實際上就是CRM，自己的使用者系統，這是最重要的。

　　第三步，正常管道的資料。舉例來說一個銷售快銷品的企業，能不能夠得到沃爾瑪的資料，家樂福的資料？很多國外大資料的案例，說消費者買啤酒的時候也會購買刮胡刀之類，或者一個母嬰産品的消費者她今天在買這個産品，預示着她後面必然會買另一個産品。這就有一個前期的挖掘。這些價值怎麼來的，這就需要企業去找正常管道裡面的資料，跟自己的CRM結合起來，才能為自己下一步做市場營銷、做推廣、産品創新等建立基礎。

　　第四步，外部的社會化的或者非結構化的資料，即現在所謂的社會化媒體資料。這方面資訊的主要特征是非結構化，而且非常龐大。這對企業來說最大的價值是什麼？當你的使用者在社會化媒體上發言的時候，你有沒有跟他建立聯系？這裡有個概念叫做DC（digital connection）。所謂的網際網路實際就是一種DC，但是通常網際網路上的那種DC是在娛樂層面。用到商業裡面的話，就是企業必須得跟消費者建立這種DC關系，它的價值才能發揮出來。否則，你的資料以及很多的CRM資料都是死的。就像國外CRM之父Paul Greenberg寫的四本CRM相關書籍，前面三本都是在講資料庫、系統之類的。第四本書的時候，就沒有再講那些東西，講什麼？講互動，講DC，講怎麼跟消費者建立關系。

　　有了這個資料庫去進行資料挖掘，或者在建立資料的過程中，企業需要從什麼方向去探索，也不是漫無目的的。首先應該跟着你的業務，業務現在有哪些問題，或者說這個行業裡面主要的競争點在哪裡，這是很關鍵的。有了這個業務關系以後，再形成假設，也就是說未來的競争點可能在哪裡，大到未來的戰略競争，小到哪些方面。然後下一步要怎麼做，這些形成一個假設，其次做一些小樣本的測試。

　　很多企業一看大資料就很恐怖，說我也買不起那些大資料，也雇不起那麼專業的團隊，怎麼辦？

　　自己做一些小樣本的測試，甚至通過電子表格Excel都可以做資料挖掘。不一定非要那麼龐大、那麼貴的資料。然後再做大樣本的驗證，驗證出來的結果就可以應用到現實中去。在大資料尤其是網際網路時代還有一個最重要的點，就是失效預警。即你發現一個規律，在現實中應用了，但是你一定要設立一些預警名額。就是當名額達到什麼程度的時候，之前發現的規律失效，那你就必須發現新的、相關的，否則也會造成一種浪費。筆者看到一篇文章，其中有一個重要結論。大家都在說大資料的價值很有用的時候，很多企業說我積累了多少TB，多少PB，但是你基于老的資料得出的很多結論實際是在浪費你的資源。你挖掘出來很多資料、很多規律，如果錯了，明天按這個去做，就是浪費。是以需要有一個失效預警。在這樣的過程中，最終你需要對應建立起内部團隊，他們對資料的敏感度也才能培養起來。這時候你再去買大資料服務的時候才是有價值的。

　　所有這些工作作為企業來說是需要内部去做的，最終才能開花結果，有一些收獲。企業大資料起步，要從小資料開始。

9、大資料進行中資料品質監控從哪幾個方面進行？

　　大資料進行中資料品質監控，從以下幾個方面進行：

　　資料容量（Volume）：資料的大小決定所考慮的資料的價值的和潛在的資訊；

　　資料種類（Variety）：資料類型的多樣性；

　　資料速度（Velocity）：指獲得資料的速度；

　　資料可變性（Variability）：妨礙了處理和有效地管理資料的過程；

　　資料真實性（Veracity）：資料的品質；

　　資料複雜性（Complexity）：資料量巨大，來源多管道。

　　“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資産。

10、大資料是否存在泡沫呢？

　　這是必然的，任何一個影響極大的“概念”被炒作起來後，都會在一段時間内形成強大的原動力，使各行各業的人們為之付出或真或假、或實或虛的努力，群衆的力量是龐大的，是以這一新事物将有力的推動一下曆史的程序，當又一個新的技術或理論出來後，前一個被推向高潮的概念就成了泡沫了。

　　“大資料”是指無法在可承受的時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合，靠人腦是無法進行處理的，結論的真假優劣完全取決于使用的軟體，是以其結果絕非完美無瑕，作為商業用途，能夠提供一些參考，既然隻能作為一個參考，那麼将之推高到一定程度的時候就會形成泡沫，漸漸被人遺棄和遺忘。

　　沒有常青的技術。推陳出新才是曆史的必然。

關于大資料最常見的10個問題，必看！

繼續閱讀

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

samba伺服器的功能

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

登入plsql 報錯 the account is locked --使用者被鎖

Effective Java 8:通用程式設計

【Linux】UDP廣播封包接收速率問題

SequoiaDB巨杉資料庫C++驅動概述

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

Linux裝置模型（中）之上層容器

scala (3) Function 和 Method

PowerPC平台 Linux移植三