資料科學的現在與未來

雲栖号資訊：【點選檢視更多行業資訊
】

在這裡您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！

至頂網CIO與CTO頻道 06月18日編譯：資料科學是截至近年來技術領域中最具熱度的方向之一。如果您擁有資料科學或者相關專業的工作經驗及學位，那麼隻要大筆一揮、履歷一發，一份薪酬可觀的職位就會應手而得。但是，資料科學家能成為AI領域的長青樹嗎？或者說，幾年之後圍繞資料科學出現的這股熱流終将消退？

Anthony Scriffignano, Dun & Bradstreet公司進階副總裁兼首席資料科學家

在日前的AI播客中，Dun & Bradstreet公司進階副總裁兼首席資料科學家Anthony Scriffignano分享了自己作為資料科學從業者的工作狀态，以及人工智能如何改變金融行業的前景、經曆與見解。

資料科學的目前定位

在Dun & Bradstreet公司，Scriffgnano主要負責技術創新與開發工作，同時也管理着“世界上規模最大的同類商業資料庫”項目。Scriffignano解釋道，這套前所未有的資料庫持續從全球各個國家（除北韓與古巴之外）收集大量資料，日均攝取達數百萬次。

這套資料庫融合了每一種語言與寫入系統，而且由七套不同的內建化資料庫共同組成。這一綜合性資料系統在跟蹤企業資料的同時，亦會對總體風險及發展機遇做出全球性觀察分析。以此為基礎，該資料庫得以實作大規模資料分析，進而檢測供應鍊異常以及客戶購買行為中發生的變化。毫無疑問，要從如此龐大的資訊庫當中提取價值，資料科學将成為我們不可或缺的關鍵武器。

對于像Dun & Bradstreet這樣的組織來說，最大的挑戰之一在于如何尋找經驗豐富的資料科學家，保證這些既擁有從業背景、又頗具實踐經驗的人才處理如此巨大的研究資料集。遺憾的是，目前的人才市場還無法滿足他們對于資料科學技能的需求。

Scriffignano表示，他相信AI技術正在快速發展，并必将在未來逐漸取代熟練的資料科學家，進而實作技術本身的普遍化與大衆化。在Scriffignano看來，成為一名成熟資料科學家所需要的技能，在範圍與深度方面都要遠遠超過機器學習模型開發者。從本質上講，真正的資料科學家需要專注于立足更廣泛的問題從資料中提取價值；相比之下，目前很多自稱資料科學家的從業者實際上更像是機器學習工程師，也更多關注機器學習模型開發方面的工作。

Scriffignano認為，我們需要更多關注資料科學家概念中的“科學家”部分。在他看來，資料科學家必須有能力從觀察到的資料中提出新的問題或者理論，對這一理論進行實驗設計與具體測試，而後得出結論并分享相關結果。Scriffignano注意到，大多數組織隻要求資料科學家給出可重複使用的模型，他強調隻有将資料科學家視為改進與創新工作中的關鍵，才能幫助組織邁向成功。他還指出，正是由于不願放權讓資料科學家們接觸單純模型開發之外的新領域，才導緻衆多組織長期無法真正在資料科學與AI技術領域取得進展。

挑戰：治理與倫理

除了從大資料集中擷取價值的問題之外，Scriffignano認為，人工智能與資料科學還面臨着來自治理與倫理層面的諸多挑戰。這一點在涉及個人資訊時展現得尤其明顯。在建立大型資料庫并使用私人資訊建立智能模型時，我們該如何保證以負責任的方式使用這些私人資訊？

目前世界各國之是以開始以愈發嚴格的态度審查機器學習模型，一部分原因就是這類模型往往涉及大量隐私性與安全性因素。無論模型關注哪些具體特征，隐私與安全都已經成為無法回避的現實問題。Scriffignano提出一個有趣的觀點，認為AI法規終将陷入為了滿足需求而努力迎合所有人、又為了迎合所有人而産生更多需求的怪圈或者說泥潭。人們希望進一步提升模型的自定義空間與開發開放式，但又不願意在隐私權方面做出妥協。

一部分企業與個人将從使用大量資料的模型當中受益，這些模型需要龐大的資料基礎以做出更精确的預測，但這同時也将以擷取大量私人資訊為代價。有些人可能不希望自己的資料被囊括在這些模型當中，而這又反過來導緻模型的精度有所下降。結果就是，面對機器學習模型的發展與所需資料量的擴充，總會有人對現狀感到不滿。

Scriffignano堅信，政府監管機構如果希望在保障國家安全的同時回避與隐私相關的問題，那麼最好的辦法是對技術發展抱有開放的态度。在世界上的不同地區，法律與法規的制定與細則總會存在很大差異，不同司法管轄區間對于道德倫理的認識同樣可能不太一緻。這種現象目前已經展現得相當明确：歐洲在道德倫理方面限制得最為嚴格，中國對隐私保護的關注度不高，而美國則處于二者之間。某些國家更希望強調隐私保護，而另一些國家則更重視國家安全或者經濟發展。

正如Scriffignano所提到，其中的核心問題是，機器學習本身并不存在地理界限。在某個區域内完全不可接受的實踐，在另一個地區則可能并無不妥。是以，模型的建構位置與使用位置也可以據此有所區分。畢竟模型的傳播往往很難控制，是以這種低隐私要求區域生産、高隐私要求區域消費的作法很可能成為未來的通行方案。

在本次播客節目中，Scriffignano還表達了自己對于拟人化AI的厭惡之情。他更願意選擇較為務實的思路，這不禁讓我們想起由算法與流程驅動的目前這波AI技術變革。Scriffignano以人工通用智能（AGI）為例，提出了自己的具體觀點。他認為，如果我們無法以所掌握的大量資料為基礎提出正确的問題，那麼人工智能的真正突破永遠無法到來。

他還預見出一種未來，認為專業人士将與AI攜手并進。隻要我們保持警惕，就不必擔心徹底被機器或者機器人所取代。為了實作這樣的美好未來，我們當然需要保持審慎的心态并高度重視資料倫理與治理問題。隻有這樣，AI才能真正成為通往全新時代的橋梁。

【雲栖号線上課堂】每天都有産品技術專家分享！

課程位址：
https://yqh.aliyun.com/zhibo
立即加入社群，與專家面對面，及時了解課程最新動态！

【雲栖号線上課堂社群】
https://c.tb.cn/F3.Z8gvnK

原文釋出時間：2020-06-18

本文作者：Forbes

本文來自：“

至頂網

”，了解相關資訊可以關注“

”

資料科學的現在與未來

資料科學的目前定位

挑戰：治理與倫理

繼續閱讀

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

詳解STM32單片機的堆棧

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希