标簽:資料預處理、資料科學、資料可視化、招聘、Jupyter、機器學習
原文作者:John Sullivan,資料科學部落格
DataOptimal 的創始人,可以通過 @DataOptimal在Twitter上與他聯系。
原文位址:
5 Data Science Projects That Will Get You Hired in 2018天善智能
看了不少
[1]的視訊課,讀了一堆資料科學的書,下一步你打算怎麼辦?
找個資料科學的工作不容易,不過我有個好主意能幫你找工作,這就是打造你自己的作品集,利用作品集展示你學到的技能,讓未來的老闆知道你有多大學事。
你可以把這5個資料科學項目放到作品集裡,以此說明自己的能力:
- 資料清洗
資料科學家往往要耗費高達80%的時間來清理新項目的資料,這是資料科學團隊最大的痛點。如果能告訴他們你擁有豐富的資料清理經驗,你的價值馬上就能展現出來了。現在,找一些需要清理的資料集,建立一個資料清洗項目,開始資料清理吧。
Data Cleaning
用Python的話,
Pandas絕對是首選,如果用的是R,可以使用
dplyr這個包。記得要表現出以下幾項技能:
- 導入資料;
- 合并多個資料集;
- 檢測缺失值;
- 檢測異常值;
- 插入缺失值;
- 資料品質驗證。
- 探索性資料分析
資料科學的另一項重要工作是探索性資料分析(EDA,Exploratory Data Analysis ),它是提出問題、使用可視化方法研究問題的過程。探索性資料分析可以讓分析師通過資料得出結論,進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果,也可以是分析季節因素對銷售趨勢的影響。一般來說,探索性資料分析會帶來一些讓人意想不到的發現。
Exploratory data analysis
鍵冬同學的PyEcharts-柱形圖
鍵冬同學的PyEcharts-地圖
鍵冬同學的PyEcharts-詞雲圖
Python使用者可以使用
和
Matplotlib(譯注:強烈推薦國内使用者使用鍵冬同學的
PyEcharts,互動式的可視化圖,非常好用!)這兩個庫進行探索性資料分析。R使用者可以使用
ggplot2這個包,也非常實用。探索性資料分析這個項目要展示出如下幾方面的技能:
- 能夠提出探索性的問題;
- 能夠識别趨勢;
- 能夠識别變量的共變性(covariation);
- 能夠使用可視化(散點圖、直方圖,箱須圖等)有效地溝通分析結果。
- 互動式資料可視化
互動式資料可視化包括使用Dashboard這樣的工具。資料科學團隊和終端業務使用者都喜歡使用這些工具。資料科學團隊可以使用Dashboard進行協作,一起開展資料分析工作。更重要的是,Dashboard為終端業務使用者提供了互動式的工具,讓他們把精力放在戰略目标上,而不用關注過多的技術細節。很多時候,資料科學團隊送出給使用者的可傳遞成果都是以Dashboard這種形式展現的。
Interactive data visualizations
Python使用者可以使用
Bokeh Plotly,這兩個庫都是編制Dashboard的利器。R使用者則必選RStudio的
Shiny包。Dashboard的項目一定要突出以下這些重要的技能。
- 列出客戶需求相關的名額;
- 提取有用的特征;
- 使用有邏輯的布局,比如易于浏覽的“ F模式 ”;
- 建立最優的重新整理率;
- 生成報告或其它自動化的操作。
- 機器學習
機器學習項目是你的作品集裡另一項非常重要的内容。在你關掉這篇文章,開始建構深度學習項目前,不要着急,咱們先花一分鐘的時間回顧點兒基礎概念,就算要建立一個特别複雜的機器學習模型,也得先從基礎做起。我建議從線性回歸與邏輯斯蒂回歸做起,和高管溝通時,解釋這些模型也會相對容易一點。這個項目的重點應該是突出項目對業務的影響,比如客戶流失、欺詐監測,或貸款拖欠這些内容。提醒一下,别再用預測鸢尾花類型這樣的例子了,最好找些實用的資料項目。
Machine learning
Python使用者可以用
Scikit-learn這個機器學習庫,R使用者可以使用
Caret這個包。機器學習項目要傳達給讀者你具有以下技能:
- 能夠說明選擇某個機器學習模型的原因;
- 能夠避免過拟合,将資料分割為訓練集與測試集(K折交叉驗證);
- 能夠選擇正确的評估名額(AUC~Area Under Curve, 調整R方~Adj-R2, 混淆矩陣~confusion matrix);
- 能夠開展特征工程與選擇的能力;
- 能夠進行超參數調優。
- 溝通
溝通對于資料科學的重要性比你想的要大得多,能否有效地溝通、交流資料分析結果是區分牛X資料科學家和普通資料科學家的标準。不管你做的模型多花哨,如果不能給同僚或客戶講清楚,不能讓他們了解,就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具,你可以嘗試把機器學習項目改造成幻燈片,還可以使用
Jupyter Notebook或
RMarkdown輔助溝通。
Jupyter communication
記住,首先要搞清楚目标閱聽人是誰,給公司高管做彙報和給機器學習專家做演講完全是兩碼事兒。注意要突出以下這些能力:
- 搞清楚你的目标閱聽人是誰;
- 展示可視化圖;
- 幻燈片要清爽,不要塞進去太多資訊;
- 陳述流程一定要流暢;
- 結合業務影響(比如減少成本、增加收入)說明分析結果。
使用Jupyter Notebook或RMarkdown檔案記錄項目,也可以使用免費的
Github Pages将Markdown檔案轉化為靜态網頁。
完成上述五個項目,把它們加到你的作品集裡,找工作時,把你的作品集展示給面試官,就能把他們都給震了。
保持積極的心态,不斷實踐各種資料科學項目,你就能在資料科學這條道路上不斷前進,最終找到一條屬于自己的路,并在這個領域占據一席之地。順祝馬到成功,高薪在手!
- 原文是慕課,這裡本地化了,順便給天善智能打個廣告,感謝天善引導我進入資料科學的大門。 ↩