如果你初來乍到,大資料看起來很吓人!根據你掌握的基本理論,讓我們專注于一些關鍵術語以此給你的約會對象、老闆、家人或者任何一個人帶來深刻的印象。
讓我們開始吧:
1、MaxCompute(原名ODPS)。由中國阿裡雲自主研發的大資料平台産品MaxCompute,它能提供快速、完全托管的PB級資料倉庫解決方案,可以經濟并高效的分析處理海量資料,為全球60個國家,180萬家企業提供計算能力。
https://www.aliyun.com/product/odps同類開源産品有Hadoop。
資料位址 :
https://yq.aliyun.com/articles/781082、分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費占比呢?那你便是在做“分析”了。你正從一堆原始資料中來吸取經驗,以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的文章做同樣的練習呢?那我們便是在讨論大資料分析了。大資料分析的實質是利用大量資料來進行推斷和講故事。大資料分析有3種不同到的類型,接下來便繼續本話題進行依次讨論。
3、描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節。
4、預測分析。如果你根據過去5年的信用卡曆史記錄來進行分析,并且劃分具有一定的連續性,則你可以高機率預測明年将與過去幾年相差無幾。此處需要注意的細節是,這并不是“預測未來”,而是未來可能會發生的“機率”。在大資料預測分析中,資料科學家可能會使用類似機器學習、進階的統計過程(後文将對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。
5、規範分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出産生巨大的影響。規範分析建立在預測分析的基礎之上,包含了“行動”記錄(例如減少食品、服裝、娛樂支出),并分析所得結果來“規定”最佳類别以減少總體支出。你可以嘗試将其發散到大資料,并設想高管們如何通過檢視各種行動的影響來做出資料驅動的決策。
6、批處理。雖然批量資料處理在大型機時代就早已出現,但大資料交給它更多大資料集處理,是以賦予了批處理更多的意義。對于一段時間内收集到的一組事務,批量資料處理為處理大量資料提供了一種有效的方法。後文将介紹的MaxCompute便是專注于批量資料處理。
7、Cassandra是由Apache Software Foundation管理的一款流行的開源資料庫管理系統。很多大資料技術都歸功于Apache,其中Cassandra的設計初衷便是處理跨分布式伺服器的大量資料。
8、雲計算。顯而易見雲計算已經變得無所不在,是以本文可能無須贅述,但為了文章的完整性還是佐以介紹。雲計算的本質是在遠端伺服器上運作的軟體和(/或)資料托管,并允許從網際網路上的任何地方進行通路。
9、叢集計算。它是一種利用多台伺服器的彙集資源的“叢集”來進行計算的奇特方式。在了解了更多技術之後,我們可能還會讨論節點、叢集管理層、負載平衡和并行處理等。
10、黑暗資料。依我看來,這個詞适用于那些吓得六神無主的進階管理層們。從根本上來說,黑暗資料是指那些被企業收集和處理但又不用于任何有意義用途的資料,是以描述它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網絡資訊流、呼叫中心日志、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業資料都可能是“黑暗資料”,但無人真正知曉。
11、資料湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節的玩笑。但它真的是個術語!資料湖是一個原始格式的企業級資料的大型存儲庫。雖然此處讨論的是資料湖,但有必要再一起讨論下資料倉庫,因為資料湖和資料倉庫在概念上是極其相似的,都是企業級資料的存儲庫,但在清理和與其他資料源內建之後的結構化格式上有所差別。資料倉庫常用于正常資料(但不完全)。據說資料湖能夠讓使用者輕松通路企業級資料,使用者真正按需知道自己正在尋找的是什麼、如何處理并讓其智能化使用。
12、資料挖掘。資料挖掘是指利用複雜的模式識别技術從大量資料中找到有意義的模式、提取見解。這與我們前文讨論的使用個人資料做分析的術語“分析”密切相關。為了提取出有意義的模式,資料挖掘者使用統計學(是呀,好老的數學)、機器學習算法和人工智能。
13、資料科學家。我們談論的是一個如此熱門的職業!資料科學家們可以通過提取原始資料(難道是從前文所說的資料湖中提取的?),處理資料,然後提出新見解。資料科學家所需具備的一些技能與超人無異:分析、統計、計算機科學、創造力、故事講述和了解業務環境。難怪他們能獲得如此高的薪水報酬。
14、分布式檔案系統。由于大資料太大而無法在單個系統上進行存儲,分布式檔案系統提供一種資料存儲系統,友善跨多個儲存設備進行大量資料的存放,并有助于降低大量資料存儲的成本和複雜度。
15、ETL。ETL分别是extract,transform,load的首字母縮寫,代表提取、轉化和加載的過程。 它具體是指“提取”原始資料,通過資料清洗/修飾的方式進行“轉化”以獲得 “适合使用”的資料,進而“加載”到合适的存儲庫中供系統使用的整個過程。盡管ETL這一概念源于資料倉庫,但現在也适用于其它情景下的過程,例如在大資料系統中從外部資料源擷取/吸收資料。
16、算法。“算法”如何與大資料相關?即使算法是一個通用術語,但大資料分析使其在當代更受青睐和流行。
17、記憶體計算。一般來說,任何可以在不通路I / O的情況下進行的計算預計會比需要通路I/O的速度更快。記憶體内計算是一種能夠将工作資料集完全轉移到叢集的集體記憶體中、并避免了将中間計算寫入磁盤的技術。Apache Spark便是一種記憶體内計算系統,它與I / O相比,在像MaxCompute MapReduce這樣的系統上綁定具有巨大的優勢。
18、IOT。最新的流行語是物聯網(Internet of things,簡稱IOT)。IOT是通過網際網路将嵌入式對象(傳感器、可穿戴裝置、汽車、冰箱等)中的計算裝置互連在一起,并且能夠發送/接收資料。IOT産生了大量的資料,這為呈現大資料分析提供了更多的機會。
19、機器學習。機器學習是為了設計一種基于提供的資料能夠進行不斷學習、調整、改進的系統的設計方法。機器使用預測和統計的算法進行學習并專注于實作“正确的”行為模式和簡見解,随着越來越多的資料注入系統它還在不斷進行優化改進。典型的應用有欺詐檢測、線上個性化推薦等。
20、MapReduce。MapReduce的概念可能會有點混亂,但讓我試一試。MapReduce是一個程式設計模型,最好的了解方法是将Map和Reduce是看作兩個獨立的單元。在這種情況下,程式設計模型首先将大資料的資料集分成幾個部分(技術術語上是稱作“元組”,但本文并不想太過技術性),是以可以部署到不同位置的不同計算機上(即前文所述的叢集計算),這些本質上是Map的組成部分。接下來該模型收集到所有結果并将“減少”到同一份報告中。 MapReduce的資料處理模型與MaxCompute的分布式檔案系統相輔相成。
21、NoSQL。乍一聽這像是針對傳統關系型資料庫管理系統(RDBMS)的面向對象的SQL(Structured Query Language, 結構化查詢語言)的抗議,其實NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作“圖表”(例如關系型資料庫的表)等資料的資料庫管理系統。NoSQL資料庫一般非常适用于大型資料系統,這得益于它們的靈活性以及大型非結構化資料庫所必備的分布式結構。
22、R語言。有人能想到比這個程式設計語言更糟糕的名字嗎?是的,’R’是一門在統計計算中表現非常優異的程式設計語言。如果你連’R’都不知道,那你就不是資料科學家。(如果你不知道’R’,就請不要把那些糟糕的代碼發給我了)。這就是在資料科學中最受歡迎的語言之一的R語言。
23、Spark(Apache Spark)。Apache Spark是一種快速的記憶體内資料處理引擎,它可以高效執行需要快速疊代通路資料集的流、機器學習或SQL工作負載。Spark通常比我們前文讨論的MapReduce快很多。
24、流處理。流處理旨在通過“連續”查詢對實時和流資料進行操作。結合流分析(即在流内同時進行連續計算數學或統計分析的能力),流處了解決方案可以被用來實時處理非常大的資料。
25、結構化和非結構化資料。這是大資料5V中的“Variety”多樣性。結構化資料是能夠放入關系型資料庫的最基本的資料類型,通過表的組織方式可以聯系到任何其他資料。非結構化資料則是所有不能直接存入關系資料庫中的資料,例如電子郵件、社交媒體上的文章、人類錄音等。