英特爾馬子雅：Spark與Hadoop合體變大生态系統

zdnet至頂網軟體頻道消息原創文章（文/鄧曉蕾）：萬物互聯的物聯網是目前助力“網際網路+”的關鍵技術之一。它生成的網絡不僅在規模上空前龐大，也将時時刻刻不間斷地産出海量資料資訊。據思科預測，至2020年全球就将有500億台裝置實作互聯，産生總計為zb級的資料。作為全球計算力創新的引領者，英特爾在大資料領域深耕已久，在日前第十三屆軟交會上，英特爾公司軟體與服務事業部大資料技術中心全球總經理馬子雅女士接受zdnet至頂網的采訪，聊聊關于在“網際網路+”創新過程中，英特爾在大資料方面的一些貢獻。

英特爾公司軟體與服務事業部大資料技術中心全球總經理馬子雅女士

大資料，是一個大的生态系統

過去一般說大資料，我們首先想到的就是在資料中心裡面來運算、處理大資料。英特爾公司軟體與服務事業部大資料技術中心全球總經理馬子雅認為，“其實不是的，現在說大資料，是一個大的生态系統。”她介紹，從用戶端，尤其是物聯網這個移動互聯的這些裝置，當資料一開始收集，就有一些智能裝置，甚至自己可以做一些簡單的資料處理，都不需要把資料送到資料中心去。當然，有時候也有複雜的運算就送到資料中心去用雲分析或者背景分析。是以從終端到雲計算或者資料中心，已經成為完整的有機整體，不可能說隻處理資料中心的資料。

資料首先是從終端來的，包括可穿戴裝置，手機、pc等都是可以收集這些資料，這可以看做是一個有機聯系的主體。她強調，從端到端，從物聯網一直到最後的資料中心這樣一個完全的資料處理的功能，實時的資料分析的功能，這幾個方面不可能獨立存在，而是一個非常完整的整體，是互相依存的關系。

開源裡的大資料有五個趨勢

提到現在做的大資料，離不開在開源裡的工作，馬子雅認為有五個方向：

一是，分析。機器學習，包括人工智能，都統劃到分析、應用這塊。

其次，是spark。在幾年之前hadoop是特别熱的，慢慢的hadoop加入了spark的成份，她稱，因為hadoop的資料處理的子產品叫mapreduce，它的運作速度不是特别令人滿意。當spark開始進入了人們的視野，尤其是spark利用對記憶體直接進行運算，在特定的情況下運作速度甚至可以達到mapreduce的上百倍。基于這樣的原因， hadoop加上spark開始越來越受到重視。

三是，sql。很多最終的應用程式最後都需編寫出來，可目前整個軟體開發社群的程式員，對sql語言更了解，幾乎不需要重新學習。

四是，存儲。現在主要是講hdfs，過去講資料和處理的程式要在同一個節點上。随着硬體技術的發展，網絡速度更快，以及存儲的memory技術也越來越快，現在不要求一定資料跟處理它的程式在同一個節點上，更多的開始說分布式記憶體系統。

五是，雲實作。怎麼樣把大資料跟雲計算更好的結合在一起。

spark很重要，但不可能獨立存在于hadoop之外

談到英特爾對spark的重視是否說明“spark”是大資料最好的一個應用平台，馬子雅稱，英特爾做spark已經做了很久，在全球僅次于databricks和amplab，英特爾在中國應當是最領先的。

“spark本身不可能獨立存在于hadoop之外。”馬子雅認為，spark需要用hadoop的hdfs的存儲結構，甚至hadoop yarn等，都是相輔相成的關系。包括spark本身也在不斷地發展，現在看到很多做spark的人，他們也在想怎麼把spark的速度提升得更高，性能提高得更好。并且spark現在已經不再是以前的spark core這一個子產品，它現在已經幾乎變成一個大的生态系統，跟hadoop緊密的結合，包括spark streaming, sql engine，尤其是spark分析這一塊，已經開始擴充到上層的這些子產品。

規模化是英特爾解決資料分析的一個重要問題

資料分析在速度安全以及規模三個方面非常重要，尤其規模化，在分析領域是一個難題，也是一個課題。馬子雅對此談到，英特爾目前主要是圍繞着spark分析，希望能夠讓其實作規模化。一方面在spark跟其他的同行一同協作，比如databricks、uc berkeley amplab、cloudera、微軟、京東、華為。另外一方面，在spark的社群裡面，英特爾主要針對graphx這幾個子產品讓它們運作在分布式環境裡面。其實就是讓graph計算，讓它在分布式環境裡面來做，讓其規模化。

她還介紹，在這之上，還有一些其他相關内容的涉獵。比如說sparkr，目前很多寫應用程式的人，都是用r來寫，很多人對r這個語言很了解，但是對規模化，對分布式環境是沒有概念的。英特爾通過做sparkr的一些子產品，使用r寫的這些應用程式，可以自動的跑在分布式的環境裡面，來達到它對于規模化的要求。

英特爾與合作夥伴共建spark叢集

當數量越來越大的時候，通常都需要非常快速的、運作時間短的分析能力，這就對速度和性能有一定的要求。馬子雅介紹了跟騰訊的合作來回應這點。騰訊有一個應用程式運算一次時間、速度非常長。騰訊想把spark整個叢集能夠調得性能更好一點。英特爾提供了非常具體的建議，包括怎麼設定spark叢集，對軟體進行哪些調整等。最後，運作速度降低了一倍，就時間來說，原來是20分鐘，現在可以降到10分鐘。英特爾幫助騰訊把運算生命周期減了一倍的時間。此外，她還提到另外一個合作夥伴京東在硬體性能提升方面與英特爾之間的合作。“如果你要想特别大的運算量，提升硬體，可能硬體的性能提升了一倍，但是通過提升軟體的一些設定，可以讓它的運作速度提高4倍、5倍，甚至6倍到8倍之上。這樣的話，軟體加硬體一起的優化，會比你實際的cost的增加，這個利處會更大。”馬子雅這樣說明英特爾的作為。

國内外做大資料有不同

結合目前的熱點“網際網路+”，馬子雅表示，她看到國内與國外做大資料有一些不同。目前中國做大資料做得最熱的是網際網路的産業，因為它近水樓台，它已經在做網際網路，本身就有大量的資料需要處理，是以這是非常典型的。而在國外更多的是傳統産業跟大資料的結合。比如說醫學方面、醫療方面和銀行方面有大量的資料，需要大資料來幫助分析、運算。首先大資料本身是一個低成本，跟傳統的database這些産業相對來說成本是低的，在對于處理和存儲同樣大的資料流量，這是兩邊不同的一個地方。

而在中國，更多的網際網路公司開始摸索出了大資料的一些經驗之後，慢慢的會滲透到一些傳統産業中去，因為它的一些經驗會顯現出來，會促進其他的傳統産業更好的來利用。

應用軟體一定程度上決定spark未來走向

“想象一下大資料，為什麼現在會這麼熱？”馬子雅認為，是因為它能夠真正的幫助我們解決一些實際的問題更，有效的處理一些現在的資料。是以，大資料的應用軟體是非常非常重要的。

“從軟體的角度，會把以人為本放在最前面，更好的解決人的問題，然後通過技術手段來解決這些問題，這就會變得特别重要。”她分析，以前是人跟着技術跑，往往新技術能帶往何種道路有時還是未可知的，隻是一些假設。目前一些大資料使用者就明确，不在乎用什麼樣的硬體，甚至都不在乎用什麼樣的hadoop或者是spark的産品，隻要給一個非常好的、有效的應用程式、應用軟體就好了。

最後，馬子雅總結，“應用軟體在一定程度上決定了spark，包括hadoop的整個生态系統的未來走向。而這一層的資料平台的未來走向又決定了硬體應當怎麼樣更好的發展，來适應大資料的要求。”

英特爾公司的戰略目标就是攜手更多合作夥伴，提供更強大、可靠的大資料技術，對爆發性增長的資料進行全面地感覺、收集、管理、分析乃至共享，将其高效解析成高精度、高價值、可流通的資訊，推進“網際網路＋”程序——更好、更快地利用資訊通信和網際網路技術，幫助企業實作業務上的跨界變革和創新。

原文釋出時間為：2015年7月10日

本文作者：鄧曉蕾

本文來自雲栖社群合作夥伴至頂網，了解相關資訊可以關注至頂網。

英特爾馬子雅：Spark與Hadoop合體變大生态系統

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

解讀2008年網絡技術熱詞之雲計算

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark