天天看點

獨家 | 從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附連結)

翻譯:張玲

校對:吳金笛

本文約3000字,建議閱讀5分鐘。

關于三種資料科學工具Python、R和SAS,本文從8個角度進行比較分析并在文末提供記分卡,以便你随時調整權重,快速做出選擇。

簡介

我們喜歡比較!

從比較三星、蘋果、HTC的智能手機,iOS、Android、Windows的移動作業系統到比較即将選舉的選舉候選人,或者選擇世界杯隊長,比較和讨論豐富了我們的生活。如果你喜歡讨論,你所要的就是在一個充滿激情的群體中抛出一個相關問題,然後看着它爆炸式地發展!這個過程的美妙之處在于,社群裡的每個人都是一個知識淵博的人。

我在這裡也引發類似的讨論,比較SAS、R和Python。SAS和R孰好孰壞可能是資料科學領域的最大争論,而Python是目前發展最快的語言之一,自其誕生以來,已經走過很長的路。我開始這個讨論的原因并不是想看它爆炸(不過那也很有趣),而是知道我們都會從讨論中受益。

這也是我在這個部落格上最常見的問題之一,是以我會和所有的讀者、訪客一起讨論這個問題。

SAS

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-business-analyst-sas/

R

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/

資料科學領域

https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2?utm_source=blog&utm_medium=PythonvRvSASarticle

Python

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-Python/
獨家 | 從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附連結)

關于這個話題不是已經說了很多了嗎?

可能是的,但我仍然覺得有必要談論,原因如下:

  • 資料科學行業是一個充滿活力的行業,兩年前進行的任何比較都有可能和資料科學不再相關。
  • 傳統上,Python不在比較範圍内,但現在我認為這不僅僅是一個值得考慮的問題。
  • 在我即将讨論語言全球趨勢的同時,我将添加有關印度分析行業(處于不同發展水準)的特定資訊。

是以,不要再拖延了,讓讨論開始吧!

背景

以下是對3種資料科學工具的簡要描述:

SAS:毋庸置疑,SAS一直是商業分析領域的市場上司者。該軟體提供了大量的統計功能,具有良好的圖形使用者界面(Enterprise Guide&Miner),便于人們快速學習,并提供出色的技術支援。然而,最終它成為最昂貴的選擇,還不具備豐富的最新統計功能。

R:R是SAS的開源版本,傳統上用于學術和研究。由于其開源特性,最新的統計功能很快就會釋出,而且網際網路上有很多學習文檔,R是一個非常劃算的選擇。

Python:Python作為一種開源語言,它的使用與日俱增。如今,它的擴充程式庫(numpy、scipy和matplotlib)和功能幾乎可以用于您可能想要進行的任何統計操作/模型建構。自從引入panda後,它在結構化資料操作方面變得非常強大。

比較屬性(比較角度)

我将在以下8個屬性上比較這些語言:

  1. 可用性/成本
  2. 易學性
  3. 資料處理能力
  4. 圖形功能
  5. 工具進展
  6. 工作情形
  7. 深度學習支援
  8. 客戶服務支援和社群

我從分析師的角度比較這些,是以,如果你想為公司購買一個工具,你可能無法在這裡得到完整的答案,但下面的資訊仍然有用。對這三種工具,我就每個比較屬性進行評分(1–低;5–高)。

這些比較屬性的權重取決于你從事的職業和抱負。

1.可用性/成本

SAS是一種商業軟體,很昂貴,對于大多數專業人員(以個人身份)來說仍然遙不可及。然而,它在私營機構中占有最高的市場佔有率。是以,除非您所在的組織購買了SAS,否則可能很難接觸它。雖然,SAS提供了一個免費的大學版本,可以使用Jupyter筆記本,但它仍有一些限制!

另一方面,R&Python是完全免費的。以下是我在這個參數上的評分:

SAS – 3

R – 5

Python – 5

2.易學性

SAS很容易學習,并且為已經了解SQL的人提供了簡單的選項(PROC

-SQL)。即使不這樣,它的知識庫中也有一個很好的、穩定的圖形使用者界面。在資源方面,各個大學的網站上都有教程,SAS有一個全面的文檔。有來自SAS教育訓練機構的認證,但需要花錢才能獲得。

在這裡列出的3種工具中,R的學習曲線最陡,因為需要你學習和了解編碼。R是一種低級程式設計語言,是以簡單的過程可能需要較長的代碼。

SQL

https://www.analyticsvidhya.com/blog/2015/03/basics-sql-rdbms/

proc-sql

https://www.analyticsvidhya.com/blog/2015/04/data-exploration-sas-data-step-proc-sql/

Python在程式設計領域以其簡單性而聞名,這對于資料分析也是如此。雖然到目前為止還沒有廣泛使用的圖形界面,但我希望Python notebooks會越來越成為主流,這會為文檔和共享提供了很棒的功能。

SAS – 4.5

R – 2.5

Python – 3.5

3.資料處理能力

在過去,這一直是SAS的優勢。R在記憶體(RAM)中進行所有的計算,是以計算受到32位機器上RAM數量的限制,但情況不再是這樣了。這三種工具都具有良好的資料處理能力和并行計算選項,我覺得這不再是一個很大的差別。他們都可以內建Hadoop和Spark內建,同時也支援Cloudera和ApachePig。

SAS – 4

R – 4

Python – 4

4.圖形功能

SAS具有良好的功能圖形功能,然而,隻是功能性的。任何對繪圖的自定義都是困難的,需要你了解複雜的SAS圖形(程式擴充)包。

R和Python都具有非常進階的圖形功能,有許多軟體(程式擴充)包将為您提供進階圖形功能。

現在,随着這兩種工具都引入plotly并且Python引入了Seaborn,自定義繪圖變得前所未有的簡單。

R – 4.5

Python – 4.5

5.工具進展

這3個工具都具有最基本基本和最需要的所有功能,隻有在研究最新的技術和算法時,這個特性才重要。

由于其開放性,R&Python可以快速獲得最新特性,而SAS在新版本的推出中更新了其功能。由于R在學術界廣泛應用,是以新功能的發展很快。

盡管如此,SAS在受控環境中釋出更新,是以它們經過了很好的測試。另一方面,R&Python是開放的,在最新功能的開發中有出錯的可能。

6.工作情形

在全球範圍内,SAS仍然是市場上司者,大多數大型組織仍然在SAS上工作。另一方面,R/Python對于初創企業和尋求成本效益的公司來說是更好的選擇。此外,據報告,在過去幾年裡,R/Python相關的工作數量有所增加。這是一個在網際網路上廣泛釋出的趨勢,顯示了R和SAS工作數量的趨勢。用于資料分析的Python工作與R工作具有類似或更高的趨勢:

在下圖中,藍色代表R,橙色代表SAS。

獨家 | 從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附連結)

在下圖中,藍色代表R,橙色代表Python。

獨家 | 從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附連結)

資料科學工作中使用的工具分布情況如下:

獨家 | 從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附連結)

7.客戶服務支援與社群

R和Python擁有最大的線上社群,但沒有客戶服務支援。是以,如果你有麻煩,你就靠自己了。不過,你會得到很多幫助的。

SAS提供了專門的客戶服務社群。是以,如果你在安裝方面遇到問題或任何其他技術挑戰,你可以聯系他們。

R – 3.5

8.深度學習支援

SAS的深度學習仍處于起步階段,還有很多工作要做。

Python在該領域有着巨大的進步,它有許多(程式擴充)包,如tensorflow和keras。

R最近增加了對這些包以及一些基本包的支援。R中的kerasR和keras包充當Python包keras的接口。

SAS – 2

R – 3

其他因素:

以下是一些值得注意的要點:

  • Python廣泛應用在Web開發中,如果你從事線上業務,使用Python可以同時進行Web開發和分析。
  • SAS過去在部署端到端基礎架構(可視化分析、資料倉庫、資料品質、報告和分析)方面具有很大優勢,但現在可以通過在SAP HANA和Tableau等平台上內建/支援R,這種優勢已不再明顯。盡管它距離SAS這樣的無縫內建還有很遠的距離,但這段旅程已經開始。

結論

在今天的情況下,我們看到市場對Python略有傾斜。考慮到行業的動态性,押注什麼即将占據上風,時機尚未成熟。根據你的情況(職業階段、财務狀況等),你可以增加你自己的權重,并想出可能适合你的方案。以下是一些特定的場景:

如果你是一個剛進入分析行業的人(特别是在印度),我建議你學習SAS作為你的第一語言。學習容易,就業市場占有率最高。

如果你是一個已經在這個行業中一段時間的人,你應該嘗試學習一個新工具來多樣化你的專業知識。

對于業内的專家和專業人士,人們至少應該知道其中的兩個,這将為未來增加許多靈活性,并打開新的機會。

如果您是初創企業/自由職業者,R/Python更有用。

從戰略上講,具備更多實際操作幫助和教育訓練的企業機構可以選擇SAS作為選項。

研究人員和統計學家選擇R作為替代方案,因為它有助于進行大量的計算。正如他們所說,R是為了完成工作,而不是為了讓你的電腦更輕松。

由于其輕量級的特性和不斷增長的社群,Python明顯已經成為當今初創企業的選擇,這也是深度學習的最佳選擇。

下面是最後的記分卡:

獨家 | 從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附連結)

以上是我對這一比較的看法。現在輪到你通過下面的評論來分享你的觀點了。

原文标題:

Python vs. R (vs. SAS) – which tool should I learn?

原文連結:

https://www.analyticsvidhya.com/blog/2017/09/sas-vs-vs-Python-tool-learn/

編輯:王菁

校對:龔力

譯者簡介

獨家 | 從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附連結)

張玲,在崗資料分析師,計算機碩士畢業。從事資料工作,需要重塑自我的勇氣,也需要終生學習的毅力。但我依舊熱愛它的嚴謹,癡迷它的藝術。資料海洋一望無境,資料工作充滿挑戰。感謝資料派THU提供如此專業的平台,希望在這裡能和最專業的你們共同進步!

翻譯組招募資訊

工作内容:将選取好的外文前沿文章準确地翻譯成流暢的中文。如果你是資料科學/統計學/計算機專業的留學生,或在海外從事相關工作,或對自己外語水準有信心的朋友,資料派翻譯組歡迎你們加入!

你能得到:提高對于資料科學前沿的認知,提高對外文新聞來源管道的認知,海外的朋友可以和國内技術應用發展保持聯系,資料派團隊産學研的背景為志願者帶來好的發展機遇。

其他福利:和來自于名企的資料科學工作者,北大清華以及海外等名校學生共同合作、交流。