天天看點

【譯Py】2018年,這5個資料科學項目能幫你找到工作

标簽:資料預處理、資料科學、資料可視化、招聘、Jupyter、機器學習

原文作者:John Sullivan,資料科學部落格

DataOptimal 的創始人,可以通過 @DataOptimal

在Twitter上與他聯系。

原文位址:

5 Data Science Projects That Will Get You Hired in 2018
【譯Py】2018年,這5個資料科學項目能幫你找到工作

天善智能

  看了不少

[1]

的視訊課,讀了一堆資料科學的書,下一步你打算怎麼辦?

  找個資料科學的工作不容易,不過我有個好主意能幫你找工作,這就是打造你自己的作品集,利用作品集展示你學到的技能,讓未來的老闆知道你有多大學事。

  你可以把這5個資料科學項目放到作品集裡,以此說明自己的能力:

  1. 資料清洗

  資料科學家往往要耗費高達80%的時間來清理新項目的資料,這是資料科學團隊最大的痛點。如果能告訴他們你擁有豐富的資料清理經驗,你的價值馬上就能展現出來了。現在,找一些需要清理的資料集,建立一個資料清洗項目,開始資料清理吧。

【譯Py】2018年,這5個資料科學項目能幫你找到工作

Data Cleaning

  用Python的話,

Pandas

絕對是首選,如果用的是R,可以使用

dplyr

這個包。記得要表現出以下幾項技能:

  • 導入資料;
  • 合并多個資料集;
  • 檢測缺失值;
  • 檢測異常值;
  • 插入缺失值;
  • 資料品質驗證。
  1. 探索性資料分析

  資料科學的另一項重要工作是探索性資料分析(EDA,Exploratory Data Analysis ),它是提出問題、使用可視化方法研究問題的過程。探索性資料分析可以讓分析師通過資料得出結論,進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果,也可以是分析季節因素對銷售趨勢的影響。一般來說,探索性資料分析會帶來一些讓人意想不到的發現。

【譯Py】2018年,這5個資料科學項目能幫你找到工作

Exploratory data analysis

【譯Py】2018年,這5個資料科學項目能幫你找到工作

鍵冬同學的PyEcharts-柱形圖

【譯Py】2018年,這5個資料科學項目能幫你找到工作

鍵冬同學的PyEcharts-地圖

【譯Py】2018年,這5個資料科學項目能幫你找到工作

鍵冬同學的PyEcharts-詞雲圖

  Python使用者可以使用

Matplotlib

(譯注:強烈推薦國内使用者使用鍵冬同學的

PyEcharts

,互動式的可視化圖,非常好用!)這兩個庫進行探索性資料分析。R使用者可以使用

ggplot2

這個包,也非常實用。探索性資料分析這個項目要展示出如下幾方面的技能:

  • 能夠提出探索性的問題;
  • 能夠識别趨勢;
  • 能夠識别變量的共變性(covariation);
  • 能夠使用可視化(散點圖、直方圖,箱須圖等)有效地溝通分析結果。
  1. 互動式資料可視化

  互動式資料可視化包括使用Dashboard這樣的工具。資料科學團隊和終端業務使用者都喜歡使用這些工具。資料科學團隊可以使用Dashboard進行協作,一起開展資料分析工作。更重要的是,Dashboard為終端業務使用者提供了互動式的工具,讓他們把精力放在戰略目标上,而不用關注過多的技術細節。很多時候,資料科學團隊送出給使用者的可傳遞成果都是以Dashboard這種形式展現的。

【譯Py】2018年,這5個資料科學項目能幫你找到工作

Interactive data visualizations

Python使用者可以使用

Bokeh Plotly

,這兩個庫都是編制Dashboard的利器。R使用者則必選RStudio的

Shiny

包。Dashboard的項目一定要突出以下這些重要的技能。

  • 列出客戶需求相關的名額;
  • 提取有用的特征;
  • 使用有邏輯的布局,比如易于浏覽的“ F模式 ”;
  • 建立最優的重新整理率;
  • 生成報告或其它自動化的操作。
  1. 機器學習

  機器學習項目是你的作品集裡另一項非常重要的内容。在你關掉這篇文章,開始建構深度學習項目前,不要着急,咱們先花一分鐘的時間回顧點兒基礎概念,就算要建立一個特别複雜的機器學習模型,也得先從基礎做起。我建議從線性回歸與邏輯斯蒂回歸做起,和高管溝通時,解釋這些模型也會相對容易一點。這個項目的重點應該是突出項目對業務的影響,比如客戶流失、欺詐監測,或貸款拖欠這些内容。提醒一下,别再用預測鸢尾花類型這樣的例子了,最好找些實用的資料項目。

【譯Py】2018年,這5個資料科學項目能幫你找到工作

Machine learning

  Python使用者可以用

Scikit-learn

這個機器學習庫,R使用者可以使用

Caret

這個包。機器學習項目要傳達給讀者你具有以下技能:

  • 能夠說明選擇某個機器學習模型的原因;
  • 能夠避免過拟合,将資料分割為訓練集與測試集(K折交叉驗證);
  • 能夠選擇正确的評估名額(AUC~Area Under Curve, 調整R方~Adj-R2, 混淆矩陣~confusion matrix);
  • 能夠開展特征工程與選擇的能力;
  • 能夠進行超參數調優。
  1. 溝通

  溝通對于資料科學的重要性比你想的要大得多,能否有效地溝通、交流資料分析結果是區分牛X資料科學家和普通資料科學家的标準。不管你做的模型多花哨,如果不能給同僚或客戶講清楚,不能讓他們了解,就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具,你可以嘗試把機器學習項目改造成幻燈片,還可以使用

Jupyter Notebook

RMarkdown

輔助溝通。

【譯Py】2018年,這5個資料科學項目能幫你找到工作

Jupyter communication

  記住,首先要搞清楚目标閱聽人是誰,給公司高管做彙報和給機器學習專家做演講完全是兩碼事兒。注意要突出以下這些能力:

  • 搞清楚你的目标閱聽人是誰;
  • 展示可視化圖;
  • 幻燈片要清爽,不要塞進去太多資訊;
  • 陳述流程一定要流暢;
  • 結合業務影響(比如減少成本、增加收入)說明分析結果。

  使用Jupyter Notebook或RMarkdown檔案記錄項目,也可以使用免費的

Github Pages

将Markdown檔案轉化為靜态網頁。

  完成上述五個項目,把它們加到你的作品集裡,找工作時,把你的作品集展示給面試官,就能把他們都給震了。

  保持積極的心态,不斷實踐各種資料科學項目,你就能在資料科學這條道路上不斷前進,最終找到一條屬于自己的路,并在這個領域占據一席之地。順祝馬到成功,高薪在手!

  1. 原文是慕課,這裡本地化了,順便給天善智能打個廣告,感謝天善引導我進入資料科學的大門。