克服大資料叢集的挑戰

資料存儲曾經是大資料的最大挑戰。由于雲計算基礎設施的進步，存儲資料不再是關鍵問題。如今，資料科學家所面臨的最大問題是資料收集。

叢集化使得大資料分析更容易。然而，叢集也給資料工程師帶來了必須解決的問題。

什麼是資料叢集?

資料叢集的概念可追溯到至少20年前。美國俄亥俄州立大學計算機科學和工程系教授anil kumar jain博士在他的白皮書之一中對這一術語進行了很好的描述：

“叢集是模式(觀察，資料項或特征向量)到組(叢集)的無監督分類。叢集問題在許多領域和許多學科的研究人員那裡都得到了解決;這反映了其廣泛的吸引力和實用性，作為探索性資料分析的步驟之一。然而，叢集的組合是一個困難的問題，不同社群的假設和背景差異使得有用的通用概念和方法的傳遞變得緩慢。“

換句話說，資料工程師使用叢集來識别原始資料中的趨勢和模式。他們需要将其分解成群集。

資料叢集的主要挑戰是什麼?

自從大資料的概念誕生以來，叢集一直是一個挑戰。這個問題源于資料量和處理限制。拉巴特大學列出了大資料叢集的首要關注點。

(1) 數量

大多數網絡上存儲的資料量呈指數級增長。随着資料量的增加，提取資料變得更加困難。備份資料也可能放大這些問題。

(2) 速度

資料生成的速度是資料科學家面臨的另一個叢集挑戰。這個問題不僅限于網絡上的資料量。當網絡以前所未有的速度生成新資料時，他們将很難實時地提取它。

造成的問題是雙重的：

新的模式将不斷地從已知的資料集湧現。資料分析師可能認為他們很難從資料中得出準确的結論，而事實上，他們的分析更能代表他們所模組化的問題。他們可能不知道什麼時候分析他們現有的資料集，以及何時等待收集更多的資料。

如果資料的建立速度比提取的它速度快，那麼當他們試圖收集資料時，趨勢可能會發生變化。

随着網絡使用物聯網(iot)從更多的裝置收集資料，他們能夠以更快的速度收集資料，問題将會越來越嚴重。

(3) 品種

叢集資料存儲在許多不同的表單中，這使得很難進行精确的比較。有些資料以結構化格式存儲，而其他資料集可能是完全非結構化的。

如何解決這些問題?

有各種各樣的工具和政策可以簡化抽取和分析叢集資料的過程。

(1) k均值叢集

k均值叢集方法是一種基于分組的解決方案，需要網絡将對象配置設定給一個叢集。這消除了單個對象可能通過出現在多個資料集中而偏離分析的擔心。

(2) 無監督分類算法

無監督分類算法是基于預定義參數合并非常大的資料集的資料挖掘工具。這是處理日益增長的資料量的一個很好的解決方案，特别是使用強大的hadoop工具。

(3) coala

coala使用執行個體級限制來避免類似分組引起的問題。不需要滿足100%的限制條件。

(4) 降低次元

每個資料有兩個次元：

變量

執行個體

随着變量數量的增加，總資料量呈指數增長。可以通過使用降低次元政策(也就是所謂的降維變換)來緩解問題。

确定資料叢集挑戰的新解決方案

資料叢集是解決存儲大量結構化和非結構化資料所帶來的許多問題的解決方案。然而，這不是一個可靠的解決方案，因為資料仍然需要盡可能快速準确地被通路和分析。幸運的是，有一些很好的工具和方法可以簡化流程。

本文作者：ryan kh

來源：51cto

克服大資料叢集的挑戰

繼續閱讀

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

筆試面試題目：滑動視窗(二)

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希