天天看點

雲計算的概念及關鍵技術1、雲計算的概念二、hadoop生态

1、雲計算的概念

1.1概念

雲計算是一種通過網際網路通路、可定制的IT資源共享池,并按照使用量付費的模式,這些資源包括網絡,伺服器,存儲、應用、服務等。廣泛意義上 來說, 雲計算是指服務的傳遞和使用模式,即通過網絡以按需,易擴充的方式擷取所需的資源,這種服務可以是IT的基礎設施(硬體、軟體、平台), 也可以是其他服務,雲計算的核心理念就是按需服務,就像人使用水、電、天然氣等資源一樣。

雲計算的概念及關鍵技術1、雲計算的概念二、hadoop生态

1.2關鍵技術

雲計算的關鍵技術有: 虛拟化、 分布式檔案系統、 分布式資料庫、 資源管理技術、能耗管理技術。

虛拟化:虛拟化是實作雲計算重要的技術設施,是在通過實體主機中同時運作多個虛拟機實作虛拟化,在這個虛拟化平台上,實作對多個虛拟機作業系統的監視和多個虛拟 機對實體資源的共享;

分布式檔案系統:指在檔案系統基礎上發展而來的雲存儲分布式系統,可用于大規模的叢集,主要特點:

1、高可靠性:雲存儲系統支援多個節點間儲存多個資料副本的功能,以提供資料的可靠性;‘’

2、高通路性:根據資料的重要性和通路頻率将資料分級多副本存儲、熱點資料并行讀寫,提高通路;

3、線上遷移、複制:存儲節點支援線上遷移,複制、擴容不影響上層應用;

4、自動負載均衡:可以根據目前系統的負荷,将原有節點上的資料遷移到新增的節點上,特有的分片存儲,以快為最小機關來存儲,存儲和查詢時所有的存儲節點并行計算;

5、中繼資料和資料分離:采用中繼資料和資料分離的存儲方式設計分布式檔案系統。

分布式資料庫:能實作動态負載均衡、故障節點自動接管、具有高可靠性,高可用性、高可擴充性;

資源管理技術:

雲系統為開發商和使用者提供了簡單通用的接口,使得開發商将注意力更多低集中在軟體本身,而無需考慮到底層架構,雲系統一句使用者的資源擷取請求,動态配置設定計算資源;

能耗管理技術:

雲計算基礎設施中包括數以萬計的計算機,如何有效低整合資源、降低運作成本,節省運作計算機所需的能源成為一個關注的問題

二、hadoop生态

在雲計算這一塊,hadoop算做的比較不錯,hadoop平台的基本框圖和生态系統如下所示:

雲計算的概念及關鍵技術1、雲計算的概念二、hadoop生态

說明: 1、MapReduce:是一個并行化計算架構,提供了map和reduce兩階段的并行處理模型和過程,mapreduce以鍵值對的資料輸入方式來處理資料,并能自動完成資料的劃分和排程管理; 2、分布式檔案系統(HDFS):基于實體上分布在各個資料存儲節點的本地Linux系統的檔案系統,為上次提供一個邏輯上成為整體的大規模資料存儲系統; 3、分布式資料庫管理系統(HBASE):克服了難以管理結構化/半結構化海量資料的缺點,提供了一個大規模分布式的,建立在HDFS之上的分布式資料庫管理系統,Hbase提供了基于行,列和時間戳的三維資料管理模型; 4、公共服務子產品(Common):為hadoop提供支撐服務和常用的工具類庫以及api程式設計接口,服務包括:抽象檔案系統fileSystem、遠端過程調用(RPC),系統配置工具以及序列化機制; 5、資料序列化(Avro):用于将資料結構和資料對象轉變成資料存儲和網絡傳輸的格式; 6、分布式協調服務(Zookeeper):主要使用者提供分布式應用經常需要的系統可靠性維護,資料狀态同步、統一命名服務,分布式應用配置等管理功能; 7、分布式資料倉庫處理工具(Hive):用于管理存在HDFS和hbase中的結構化/半結構化的資料。 8、資料流處理工具(Pig):用來處理大規模資料集平台,程式員可以使用它将複雜的資料分析任務實作為pig操作上的資料流腳本,這些腳本最終執行時将被系統自動轉為mapreduce任務鍊,在hadoop上執行; 9、鍵值對資料庫(Cassandro):是一個鍵值對資料庫; 10、關系資料交換工具(Sqoop):可以将一個關系型資料庫中的資料批量導入hadoop的HDFS,HBASE、Hive中,也可以反過來将資料導入關系型資料中。 11、日志資料收集工具(Flume):它将資料從生産、傳輸、處理、輸出的過程抽象為資料流,并允許在資料源中定義資料發送方,進而支援基于各種不同傳輸協定的資料,同時也支援對資料的過濾,格轉等能力。

繼續閱讀