【譯Py】2018年，這5個資料科學項目能幫你找到工作

标簽：資料預處理、資料科學、資料可視化、招聘、Jupyter、機器學習

原文作者：John Sullivan，資料科學部落格

DataOptimal 的創始人，可以通過 @DataOptimal

在Twitter上與他聯系。

原文位址：

5 Data Science Projects That Will Get You Hired in 2018

天善智能

看了不少

[1]

的視訊課，讀了一堆資料科學的書，下一步你打算怎麼辦？

找個資料科學的工作不容易，不過我有個好主意能幫你找工作，這就是打造你自己的作品集，利用作品集展示你學到的技能，讓未來的老闆知道你有多大學事。

你可以把這5個資料科學項目放到作品集裡，以此說明自己的能力：

資料清洗

資料科學家往往要耗費高達80%的時間來清理新項目的資料，這是資料科學團隊最大的痛點。如果能告訴他們你擁有豐富的資料清理經驗，你的價值馬上就能展現出來了。現在，找一些需要清理的資料集，建立一個資料清洗項目，開始資料清理吧。

Data Cleaning

用Python的話，

Pandas

絕對是首選，如果用的是R，可以使用

dplyr

這個包。記得要表現出以下幾項技能：

導入資料；
合并多個資料集；
檢測缺失值；
檢測異常值；
插入缺失值；
資料品質驗證。

探索性資料分析

資料科學的另一項重要工作是探索性資料分析（EDA，Exploratory Data Analysis ），它是提出問題、使用可視化方法研究問題的過程。探索性資料分析可以讓分析師通過資料得出結論，進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果，也可以是分析季節因素對銷售趨勢的影響。一般來說，探索性資料分析會帶來一些讓人意想不到的發現。

Exploratory data analysis

鍵冬同學的PyEcharts-柱形圖

鍵冬同學的PyEcharts-地圖

鍵冬同學的PyEcharts-詞雲圖

Python使用者可以使用

和

Matplotlib

（譯注：強烈推薦國内使用者使用鍵冬同學的

PyEcharts

，互動式的可視化圖，非常好用！)這兩個庫進行探索性資料分析。R使用者可以使用

ggplot2

這個包，也非常實用。探索性資料分析這個項目要展示出如下幾方面的技能：

能夠提出探索性的問題；
能夠識别趨勢；
能夠識别變量的共變性（covariation）；
能夠使用可視化（散點圖、直方圖，箱須圖等）有效地溝通分析結果。

互動式資料可視化

互動式資料可視化包括使用Dashboard這樣的工具。資料科學團隊和終端業務使用者都喜歡使用這些工具。資料科學團隊可以使用Dashboard進行協作，一起開展資料分析工作。更重要的是，Dashboard為終端業務使用者提供了互動式的工具，讓他們把精力放在戰略目标上，而不用關注過多的技術細節。很多時候，資料科學團隊送出給使用者的可傳遞成果都是以Dashboard這種形式展現的。

Interactive data visualizations

Python使用者可以使用

Bokeh Plotly

，這兩個庫都是編制Dashboard的利器。R使用者則必選RStudio的

Shiny

包。Dashboard的項目一定要突出以下這些重要的技能。

列出客戶需求相關的名額；
提取有用的特征；
使用有邏輯的布局，比如易于浏覽的“ F模式 ”；
建立最優的重新整理率；
生成報告或其它自動化的操作。

機器學習

機器學習項目是你的作品集裡另一項非常重要的内容。在你關掉這篇文章，開始建構深度學習項目前，不要着急，咱們先花一分鐘的時間回顧點兒基礎概念，就算要建立一個特别複雜的機器學習模型，也得先從基礎做起。我建議從線性回歸與邏輯斯蒂回歸做起，和高管溝通時，解釋這些模型也會相對容易一點。這個項目的重點應該是突出項目對業務的影響，比如客戶流失、欺詐監測，或貸款拖欠這些内容。提醒一下，别再用預測鸢尾花類型這樣的例子了，最好找些實用的資料項目。

Machine learning

Python使用者可以用

Scikit-learn

這個機器學習庫，R使用者可以使用

Caret

這個包。機器學習項目要傳達給讀者你具有以下技能：

能夠說明選擇某個機器學習模型的原因；
能夠避免過拟合，将資料分割為訓練集與測試集（K折交叉驗證）；
能夠選擇正确的評估名額（AUC~Area Under Curve, 調整R方~Adj-R2, 混淆矩陣~confusion matrix）；
能夠開展特征工程與選擇的能力；
能夠進行超參數調優。

溝通

溝通對于資料科學的重要性比你想的要大得多，能否有效地溝通、交流資料分析結果是區分牛X資料科學家和普通資料科學家的标準。不管你做的模型多花哨，如果不能給同僚或客戶講清楚，不能讓他們了解，就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具，你可以嘗試把機器學習項目改造成幻燈片，還可以使用

Jupyter Notebook

或

RMarkdown

輔助溝通。

Jupyter communication

記住，首先要搞清楚目标閱聽人是誰，給公司高管做彙報和給機器學習專家做演講完全是兩碼事兒。注意要突出以下這些能力：

搞清楚你的目标閱聽人是誰；
展示可視化圖；
幻燈片要清爽，不要塞進去太多資訊；
陳述流程一定要流暢；
結合業務影響（比如減少成本、增加收入）說明分析結果。

使用Jupyter Notebook或RMarkdown檔案記錄項目，也可以使用免費的

Github Pages

将Markdown檔案轉化為靜态網頁。

完成上述五個項目，把它們加到你的作品集裡，找工作時，把你的作品集展示給面試官，就能把他們都給震了。

保持積極的心态，不斷實踐各種資料科學項目，你就能在資料科學這條道路上不斷前進，最終找到一條屬于自己的路，并在這個領域占據一席之地。順祝馬到成功，高薪在手！

原文是慕課，這裡本地化了，順便給天善智能打個廣告，感謝天善引導我進入資料科學的大門。 ↩

【譯Py】2018年，這5個資料科學項目能幫你找到工作

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入