資料說希拉裡會赢，它錯在哪裡？

對搞數字工作的人來說這是一個難熬的夜晚。同時，對商業、政治、體育、學術界等各個領域中越來越重視資料力量的人們來說也是一樣。

唐納德·特朗普的勝利幾乎和每一個主要的預測背道而馳，這讓分析大量資料便能準确預測事件的信念遭到了質疑。選民們向人們展現了預測性分析尤其是選舉預測依舊是很年輕的學科：一些人被誤導認為希拉裡·克林頓必勝，就是因為一些預測沒有考慮到可解釋潛在較大誤差的背景。

“這是對于精确性的過度吹噓，”耶魯大學醫藥資訊學中心的研究者pradeep mutalik說道。他計算得出一些投票模型可能和實際結果偏差15到20個百分點。

幾乎所有的主要大選預測機構，包括nate silver的538網站，紐約時報upshot，和普林斯頓選舉聯盟（princeton election consortium），都認為希拉裡的獲勝機率在百分之70到99之間。

大選預測隻是一場正在各行業中發生深遠變化的一個小方面，這些行業越來越“着迷”于資料、資料的價值和通過挖掘資料獲得節約成本及增加利潤的潛力。這是一個幕後的技術，無聲的驅動着一切，從人們看到的線上廣告，到數十億美元的并購交易。

從矽谷到工業腹地，例子到處都有。比如微軟付給領英260億美元，很大程度是想要它4億多人的個人檔案和商務交際網資料庫。作為美國最大的制造商，通用電氣打大賭稱産生資料的傳感器和軟體能夠提高它的噴氣發動機和其他機械的效率和收益率。

但是資料科學是個需要權衡的科技進步。它能夠看到從未有過的東西，但是也可能成為一個缺乏對大環境和細節足夠考量的粗鈍工具。很多公司和機構悄悄地在幕後應用資料來預測人們的行為，但隻是偶爾，就像周二的選舉結果一樣，消費者很少能夠了解這些公式是起什麼作用的，以及會出到什麼程度的錯誤。

比如“谷歌流感趨勢”項目看似是大資料預測的成功。它根據跟“流感”有關的搜尋詞來跟蹤流感爆發。但是在2012-2013流感季，它的預測誇大了病例數量。

今年，facebook的程式算法下架了一張挪威人拍的照片，照片上是一個裸體的9歲女孩逃離凝固汽油炸彈的場景。軟體代碼算下來認為這張照片違反了社交網絡上禁止孩童色情作品的規定，而不是展現越南戰争和人們苦難的标志性照片。

還有一個微軟聊天機器人，本來意圖是讓它挖掘線上文本來學習“對話了解能力”，但是今年這個機器人很快就被撤回了，因為它的機器學習算法開始生成一些種族歧視的話。

利用資料分析進行善意的嘗試，即使其出發點是好的，但不能排除事與願違的情況。兩年前，英國的一個預防自殺群體（the samaritans），開發了一款免費的app，當自己關注的twitter使用者釋出了一些可能表露自殺傾向的短語，比如“憎恨自己”或者“厭倦了孤獨”時，可以提醒人們。但是有些人抱怨說這個軟體可以在他們最脆弱的時候被濫用來騷擾他們，這個團體很快移走了這個app。

這周選舉預測的失敗表明，急于利用資料讓我們失去了意識到它們局限性的能力。

“民調出現了以前選舉從未出現過的偏差。”普林斯頓大學神經科學教授兼普林斯頓選舉團創始人薩姆·王（sam wang）說。他推測民調可能沒有囊括到共和黨堅定分子，這些人一開始宣稱不投特朗普，但是在投票站改變了他們的想法。

除了選舉之夜的教訓，還有更多的教訓引起了人們對急于在經濟和社會中采用資料驅動方式做決策的疑問。

對大資料的狂熱來源于矽谷巨人在網際網路裡的成功故事，比如谷歌，亞馬遜和臉書。這些資料大亨利用智能的搜尋引擎、社交網絡和線上商務，收集了大量的使用者資料。資料是燃料，人工智能工具箱裡的算法（特别是機器學習）是發動機。

該技術的早期商業用途是通過有針對性的廣告，個性化營銷和産品推薦來增加銷售機會。但是基于大資料的決策分析已經越來越被各個行業所歡迎，也被廣泛用于深切影響人們生活的高風險決策，比如幫助人們做醫療診斷，招聘選擇和貸款準許。

資料專家說，這種危險在于過度信任資料分析，但是忽視了它的局限性和建構預測模型的人們可能存在的有缺陷的假設。

資料分析這項技術可以是，而且是極其有用的。“但是我們要了解的關鍵是，資料科學是一個不一定能給你答案，而隻能給出機率的工具。”麻省理工商學院的erick brynjolfsson教授說道。

brynjolfsson先生說人們常常不能意識到如果某件事情發生的可能性是70%，這表明還有30%的機率不發生。他說，選舉的結果“對資料科學和統計學來說并不是什麼令人驚訝之事。它就是這樣運作的。”

那麼，選舉資料和算法發生了什麼？看上去答案是：在數字如何呈現和如何讓公衆了解的兩個角度上，投票、分析和解讀上缺陷的結合。

538的創始人silver先生沒有立即回複尋求意見的郵件。the upshot的編輯amanda cox和普林斯頓選舉聯盟的王先生說，州級民調誤差很大程度上歸因于低估了川普的獲勝可能性。

除了民調誤差，資料科學家還說選舉模型的固有弱點可能導緻一些預測錯誤。在選舉之前，預測者把曆史民調和最近的民調資料結合在一起，來預測競選者的獲勝幾率。一些人還可能考慮了其他變量，比如給在職的競選人更多的權重。

但是就算有了幾十年的民調資料去分析，也難以提前幾個月甚至幾周，精準地預測一個競選者成為總統的可能性。耶魯的mutalik博士把選舉模型預測類比為天氣預測。

“就算有最好的模型，依舊很難提前10天預測天氣，因為有很多小變化會導緻大變化，”mutalik博士說。“在數學裡，這叫做混沌。”

但是不同于天氣預測，目前的選舉模型一般隻考慮到幾十年的資料。并且對這個資料集的參數進行微調也能極大地影響計算。

比如說538網站的模型是基于從1972年開始的選舉來校準的，這一年是州級民調開始增長的一年。silver先生在他的部落格裡寫道：在10月24日，這個模型認為希拉裡的獲勝率為85%，但是當這個網站實驗性地以最近的民調資料（追溯到2000年）作校準時，希拉裡的獲勝率漲到了95%。

分析員說在這次總統大選中另一個大問題是一些州的民調是錯誤的。比如最近的威斯康星州的民調認為希拉裡遙遙領先于川普，而大選的預測用了這個資訊來做預測。英國同樣遇到了類似的差錯，就是民調錯誤地以為百姓會在6月份的投票裡選擇留在歐盟。

“如果我們能回到把對競選人和政黨的報告安排在最後的緊要關頭的時代，而不是對這些東西的風吹草動進行無止境地播報，我們都會更好。”brookings研究院的選舉專家thomas e. mann說道。“它們讓人上瘾，而且會讓人不再關注更重要的事情。”

原文釋出時間為：2016-11-19

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

資料說希拉裡會赢，它錯在哪裡？

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希