天天看點

BigData:大資料開發的簡介、核心知識(linux基礎+Java/Python程式設計語言+Hadoop{HDFS、HBase、Hive}+Docker)、經典場景應用之詳細攻略

大資料簡介

         大資料(big data),IT行業術語,是指無法在一定時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資産。

Gartner定義的大資料:“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來适應海量、高增長率和多樣化的資訊資産。

MGI麥肯錫全球研究所定義的大資料:一種規模大到在擷取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料類型和價值密度低四大特征。

1、大資料的機關

         大資料需要特殊的技術,以有效地處理大量的容忍經過時間内的資料。适用于大資料的技術,包括大規模并行處理(MPP)資料庫、資料挖掘、分布式檔案系統、分布式資料庫、雲計算平台、網際網路和可擴充的存儲系統。最小的基本機關是bit,按順序給出所有機關:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的十次方)來計算:

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

1 MB = 1,024 KB = 1,048,576 Bytes

1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB = 1,048,576 PB

1 YB = 1,024 ZB = 1,048,576 EB

1 BB = 1,024 YB = 1,048,576 ZB

1 NB = 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

2、大資料的5V特點——Volume、Velocity、Variety、Value、Veracity

         在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中大資料指不用随機分析法(抽樣調查)這樣捷徑,而采用所有資料進行分析處理。大資料的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

3、大資料的價值展現

        大資料的主要價值——輔助決策。利用大資料分析,能夠總結經驗、發現規律、預測趨勢,這些都可以為輔助決策服務。隻有掌握的資料資訊越多,人類的決策才能更加科學、精确、合理。從這個方面看,也可以說資料本身不産生價值,大資料必須和其他具體的領域、行業相結合,能夠給企業決策提供幫助之後,才具有價值。很多企業都可以借助大資料,提升管理、決策水準,提升經濟效益。

(1)對大量消費者提供産品或服務的企業可以利用大資料進行精準營銷;

(2)做小而美模式的中小微企業可以利用大資料做服務轉型;

(3)面臨網際網路壓力之下必須轉型的傳統企業需要與時俱進充分利用大資料的價值。

4、大資料與雲計算密不可分

         大資料與雲計算的關系就像一枚硬币的正反面一樣密不可分。大資料必然無法用單台的計算機進行處理,必須采用分布式架構。它的特色在于對海量資料進行分布式資料挖掘。但它必須依托雲計算的分布式處理、分布式資料庫和雲存儲、虛拟化技術。

         随着雲時代的來臨,大資料(Big data)也吸引了越來越多的關注。分析師團隊認為,大資料(Big data)通常用來形容一個公司創造的大量非結構化資料和半結構化資料,這些資料在下載下傳到關系型資料庫用于分析時會花費過多時間和金錢。大資料分析常和雲計算聯系到一起,因為實時的大型資料集分析需要像MapReduce一樣的架構來向數十、數百或甚至數千的電腦組態設定工作。

以Hadoop生态系統為基礎帶你了解大資料必須掌握的那些知識

大資料技術應用場景

          大資料技術可以應用在各個領域,比如公安大資料、交通大資料、醫療大資料、就業大資料、環境大資料、圖像大資料、視訊大資料等等,應用範圍非常廣泛,大資料技術已經像空氣一樣滲透在生活的方方面面。大資料技術的出現将社會帶入了一個高速發展的時代,這不僅是資訊技術的終極目标,也是人類社會發展管理智能化的核心技術驅動力。

1、經典應用場景

(1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。

(2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。

(3)分析所有SKU,以利潤最大化為目标來定價和清理庫存。

(4)根據客戶的購買習慣,為其推送他可能感興趣的優惠資訊。

(5)從大量客戶中快速識别出金牌客戶。

(6)使用點選流分析和資料挖掘來規避欺詐行為。

大資料核心技術

1、linux基礎

        Linux是一種自由和開放源代碼的bai類duUnix作業系統,以Unix為原型改造的,一個多使用者多任務的作業系統,任何人都可以修改其代碼和頁面,主要的目的就是為了不收商業化的限制,伺服器部署在linux系統上會更加高效穩定、安全。雲計算、大資料的發展是基于開源軟體的平台,Linux占據優勢, 大資料的分布式叢集( Hadoop,Spark )都是搭建在多台 Linux 系統上,對叢集的執行指令都是在 Linux 終端視窗輸入的。

        在大資料體系中,基本都是開源軟體,這些開源軟體都是在開源的linux系統上運作的,是以,基本的linux操作一定要會,比如:

系統管理操作

基本的使用者管理

檔案權限的操作

檔案系統操作

shell程式設計

推薦文章:Linux:Linux系統新手教程—linux系統使用攻略之常見操作、常用快捷鍵

2、程式設計語言——Java、Python

基礎需要Java語言,資料科學處理需要Python語言等等。

3、分布式存儲架構——Hadoop生态系統+列式存儲資料庫HBase

學習大資料,必須學習大資料核心知識Hadoop生态系統

HDFS技術:

HBase技術:

Hive資料倉庫工具:

Spark大資料離線分析:

Sqoop使用流程

資料實時分析Storm

消息訂閱分發系統Kafka等

推薦文章:

BigData之Hadoop:Hadoop的簡介、深入了解、下載下傳、案例應用之詳細攻略

BigData之Hbase:Hbase資料管理的簡介、下載下傳、案例應用之詳細攻略

BigData之Hive:Hive資料管理的簡介、下載下傳、案例應用之詳細攻略

BigData之MongoDB:MongoDB基于分布式檔案存儲資料庫的簡介、下載下傳、案例應用之詳細攻略

BigData之Spark:Spark計算引擎的簡介、下載下傳、經典案例之詳細攻略

4、資源排程架構——Docker

         Docker可是整整火了最近一兩年。各個公司都在發力基于Docker的容器解決方案,最有名的開源容器排程架構就是K8S了,但同樣著名的還有Hadoop的YARN和Apache Mesos。

推薦文章:Docker:Docker的簡介、安裝、使用方法之詳細攻略

https://yunyaniu.blog.csdn.net/article/details/103456785