天天看點

R語言會成為大資料時代的現象級語言嗎?

文章講的是<b>R語言會成為大資料時代的現象級語言嗎</b>,大資料雖然能為企業帶來很多好處,但同時它也讓開發人員們很是頭痛,更為要命的是,開發人員漸漸發現傳統程式設計語言不足以應付他們遇到的許多挑戰。

R語言會成為大資料時代的現象級語言嗎?

  資料科學家和開發人員在處理資料時往往會有以下幾個選擇:

  ·基于GUI的開發平台。

  ·C-based語言(如C,C ++和Java)。

  ·R語言。

  R語言論壇部落客Oliver Bracht曾經寫過一篇關于R語言優點的主題文章,并指出R比其他語言更适合處理更大的資料查詢。

  Jan Wijffels在talkR會議上列舉了不同規模的資料集,根據經驗,百萬條記錄的資料集可以輕松地用标準R進行處理;百萬到十億條記錄的資料集也可以使用R來處理,但是需要額外的努力;十億條以上的資料集就需要MapReduce算法,而這些算法可以在R中設計,并用Hadoop等連接配接器進行處理。

  下面我們來看一下資料科學家都使用哪些工具和程式設計語言:

  GUI開發平台

  GUI開發平台非常友好,但是它們不足以處理大型的大資料項目,随着大資料漸漸成為企業的優先事務,更多的大資料項目将會湧現,這些GUI開發平台會更受歡迎。

  C以及C-based語言

  C以及C-based語言早在1978年就被制定了程式設計語言标準,C是C ++,Java,Python以及其他面向對象程式設計語言的基礎。雖然新的C-based語言具有強大的面向對象能力,但它們在大資料查詢方面也具有一定的局限性。

  C語言有一些很好的資料處理方法,程式員會選擇C是基于以下的原因:

  ·Java生态系統類似于Hadoop。

  ·C ++可用于處理雷達資料。

  這些語言在處理GB級的資料時非常有用,但是在處理大資料時并不健壯。例如,C++可用于大資料項目,但是要求程式員要十分熟練準确的使用指針。C-based語言的局限性使得開發人員不得不去尋找替代方案,而R語言是更新的程式設計語言,更适合處理大資料。

  R是查詢和處理大資料的更好選擇

  InfoWorld的編輯Martin Heller指出,R是更适合大資料開發人員有以下幾個原因:

  R語言的包和函數能夠加載各種來源的資料,除了使用read.table()函數處理的逗号之外的分隔符,您可以複制和粘貼資料表,讀取Excel檔案,将Excel連接配接到R,導入SAS和SPSS資料以及通路資料庫, Salesforce和RESTful接口。

  您不需要學習标準資料導入的文法,因為RStudio Tools | Import Dataset菜單項将幫助您通過檢視文本檔案或URL中的資料,設定正确的轉換選項來互動地生成正确的指令

  我們來更詳細地看一下這些要點:

  多個來源加載資料

  在大資料爆紅之前,大多數應用程式都是從單一來源彙總資料。而大資料催生了物聯網的發展,現在許多項目都要依賴衆多來源的資料。營銷應用程式是一個典型的例子,他們需要從内部資料庫,社交媒體和客戶裝置等多個來源來收集客戶資料。是以你需要一種可以從所有來源查詢和處理資料的程式設計語言。

  程式員的适應程度

  程式員學習新的語言需要一定的時間,不過,一般來說多功能的程式設計語言都有更陡峭的學習曲線,尤其是處理大資料之類的複雜東西。

  而R是一個例外。隻要程式員了解其基本編碼原則,就可以使用内建的庫來處理大資料。

  與其他語言的相容性

  R語言的優點之一就是和其他主流的程式設計語言相容。

  從雲平台中提取的能力

  如果程式員學習了R語言擴充包dplyr,就可以使用它來運作不同雲平台的大資料查詢,如Google BigQuery和Amazon Redshift。

  托管公司與R相容

  由于R可能成為大資料應用程式的标準程式設計語言,是以更多的托管公司開始重視R語言,以下托管公司都在近期為R語言程式員提供了新的解決方案:

  VPS.AG認為許多客戶依賴大資料,但是預算有限,是以他們向GB資料級的公司提供經濟托管服務。

  TrueHoster深耕各行業的客戶服務,使用大資料為所有行業定制服務計劃。

  随着大資料的繼續深入發展,其他托管服務供應商對于R語言相容性的需求會上升。

  R将成為大資料的未來?

  大資料正在以各種方式改變我們的生活,但是卻很少有人談論大資料時如何改變程式員的生活。程式員正在尋找更強大的解決方案,他們發現,R具有許多其他語言缺乏的大資料特征,并相信在不久的将來R語言可能會成為更流行的語言。

作者:朱立娜

來源:IT168

原文連結: R語言會成為大資料時代的現象級語言嗎?