天天看點

大資料平台常見開源工具有哪些?

大資料平台是對海量結構化、非結構化、半機構化資料進行采集、存儲、計算、統計、分析處理的一系列技術平台。大資料平台處理的資料量通常是TB級,甚至是PB或EB級的資料,這是傳統資料倉庫工具無法處理完成的,其涉及的技術有分布式計算、高并發處理、高可用處理、叢集、實時性計算等,彙集了目前IT領域熱門流行的各類技術。

大資料平台常見的一些工具彙集

主要包含:語言工具類、資料采集工具、ETL工具、資料存儲工具、分析計算、查詢應用及運維監控工具等。以下對各工具作為簡要的說明。

一語言工具類

1、Java程式設計技術

Java程式設計技術是目前使用最為廣泛的網絡程式設計語言之一,是大資料學習的基礎。Java具有簡單性、面向對象、分布式、健壯性、安全性、平***立與可移植性、多線程、動态性等特點,擁有極高的跨平台能力,是一種強類型語言,可以編寫桌面應用程式、Web應用程式、分布式系統和嵌入式系統應用程式等,是大資料工程師最喜歡的程式設計工具,最重要的是,Hadoop以及其他大資料處理技術很多都是用Java,是以,想學好大資料,掌握Java基礎是必不可少的。

2、Python與資料分析

Python是面向對象的程式設計語言,擁有豐富的庫,使用簡單,應用廣泛,在大資料領域也有所應用,主要可用于資料采集、資料分析以及資料可視化等,是以,大資料開發需學習一定的Python知識。

二、資料采集類工具

1)Nutch是一個開源Java 實作的搜尋引擎。它提供了我們運作自己的搜尋引擎所需的全部工具,包括全文搜尋和Web爬蟲。

2)Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用架構,可以應用在資料挖掘,資訊處理或存儲曆史資料等一系列的程式中。大資料的采集需要掌握Nutch與Scrapy爬蟲技術。

三、ETL工具

1、Sqoop

Sqoop是一個用于在Hadoop和關系資料庫伺服器之間傳輸資料的工具。它用于從關系資料庫(如MySQL,Oracle)導入資料到Hadoop HDFS,并從Hadoop檔案系統導出到關系資料庫,學習使用Sqoop對關系型資料庫資料和Hadoop之間的導入有很大的幫助。

2、Kettle

Kettle是一個ETL工具集,它允許你管理來自不同資料庫的資料,通過提供一個圖形化的使用者環境來描述你想做什麼,而不是你想怎麼做。作為Pentaho的一個重要組成部分,現在在國内項目應用上逐漸增多。其資料抽取高效穩定。

四、資料存儲類工具

1、Hadoop分布式存儲與計算

Hadoop實作了一個分布式檔案系統(Hadoop Distributed File System),簡稱HDFS。Hadoop的架構最核心的設計就是:HDFS和MapReduce。HDFS為海量的資料提供了存儲,MapReduce則為海量的資料提供了計算,是以,需要重點掌握,除此之外,還需要掌握Hadoop叢集、Hadoop叢集管理、YARN以及Hadoop進階管理等相關技術與操作!

2、Hive

Hive是基于Hadoop的一個資料倉庫工具,可以将結構化的資料檔案映射為一張資料庫表,并提供簡單的SQL查詢功能,可以将SQL語句轉換為MapReduce任務進行運作。相對于用Java代碼編寫MapReduce來說,Hive的優勢明顯:快速開發,人員成本低,可擴充性(***擴充叢集規模),延展性(支援自定義函數)。十分适合資料倉庫的統計分析。對于Hive需掌握其安裝、應用及進階操作等。

3、ZooKeeper

ZooKeeper 是一個開源的分布式協調服務,是Hadoop和HBase的重要元件,是一個為分布式應用提供一緻性服務的軟體,提供的功能包括:配置維護、域名服務、分布式同步、元件服務等,在大資料開發中要掌握ZooKeeper的常用指令及功能的實作方法。

4、HBase

HBase是一個分布式的、面向列的開源資料庫,它不同于一般的關系資料庫,更适合于非結構化資料存儲的資料庫,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,大資料開發需掌握HBase基礎知識、應用、架構以及進階用法等。

5、Redis

Redis是一個Key-Value存儲系統,其出現很大程度補償了Memcached這類Key/Value存儲的不足,在部分場合可以對關系資料庫起到很好的補充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等用戶端,使用很友善,大資料開發需掌握Redis的安裝、配置及相關使用方法。

6、Kafka

Kafka是一種高吞吐量的分布式釋出訂閱消息系統,其在大資料開發應用上的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理,也是為了通過叢集來提供實時的消息。大資料開發需掌握Kafka架構原理及各元件的作用和使用方法及相關功能的實作。

在在國内項目應用上逐漸增多。其資料抽取高效穩定。

五、資料分析類工具

NBI一站式大資料可視化分析建構平台

NBI一站式大資料分析平台作為國内領先 的新一代自助式、探索式分析工具,在産品設 計理念上始終從使用者的角度出發,一直圍繞簡 單、易用,強調互動分析為目的的新型産品。 我們将資料分析的各環節(資料準備、自服務 資料模組化、探索式分析、權限管控)融入到系 統當中,讓企業有序的、安全的管理資料和分 析資料。

大資料平台常見開源工具有哪些?

NBI一站式自服務大資料可視化分析平台 NBI資料分析決策大屏 咨詢與定制化服務 隻需在系統中通過拖拽式或點選的方式,即可在 幾分鐘内随心所欲的建構一張張精美的資料可視 化分析報告。

NBI擁有幾十種傳統圖形和新型大資料圖形元件(如桑 基圖, treemap、層級聚類圖、旭日圖、熱力矩 陣、月曆矩陣、gis等等)能讓您輕松建構各類炫 酷的資料大屏。

産品特點:

大資料平台常見開源工具有哪些?

案例展示:

大資料平台常見開源工具有哪些?

全方位資料接入,輕量級資料模組化

無縫連接配接企業各種資料,告别資料孤島,拖拽式資料模組化,資料準備

就是這麼簡單。

大資料平台常見開源工具有哪些?

簡單易用的可視化分析工具

無需技術背景,隻需通過拖拽方式,立刻将繁複的基礎資料轉換成簡單易

懂的各類圖形,實時了解企業經營狀況,進而及時的做出更明智的決策。

大資料平台常見開源工具有哪些?
大資料平台常見開源工具有哪些?