天天看點

狐狸,貝葉斯與大資料的思維方式

狐狸,貝葉斯與大資料的思維方式

       本文作者:鄭毅,著有《證析》一書,大資料實驗室合夥人

     《證析:大資料與基于證據的決策》更多關注資料對商業與社會領域決策的影響。上編對證析所處的時代背景、證析對傳統決策方式的挑戰、證析在企業中的應用案例進行介紹,并着重介紹了實驗在指導社會實踐中的思想和執行個體。下編主要從證析對企業的價值、為了發揮證析的價值而在企業組織架構、考核體系、決策流程、組織文化等方面應有的考慮。除了介紹最新的管理思想與企業實踐之外,因為證析的着眼點是數字與決策,是以貫穿全書也不可避免會涉及對科學研究方法的探讨。

      假設擲出一枚硬币,正面朝上的機率是50%,如果連續99次投擲硬币都是正面朝上落地,那麼下一次投擲硬币正面朝上落地的機率是多少?這是taleb在《黑天鵝》一書中給出的一個假想的問題。在taleb的書中,受過正統教育的約翰博士給出了教科書教給我們的标準回答,下一次投擲硬币正面朝上落地的機率仍然為50%,因為下一次硬币朝向與之前投擲的結果無關。而教育背景沒有那麼光鮮的胖托尼則認為下一次投擲硬币正面朝上的機率為99%。孰對孰錯?我和讀者都不妨給出自己的判斷。而如果一定要為自己的答案下一萬塊錢的賭注的話,我和taleb一樣,更傾向于與不是那麼教條的胖托尼保持一緻,更傾向于相信下一次硬币正面朝上的幾率為99%,更傾向于相信我之前的有關正面朝上落地的機率是50%的假設是錯誤的。

2012年,“大資料”是一個抓住了上到國家政要下到普通老百姓眼球的熱詞。随着技術的進步,資料擷取成本、資料存儲與處理成本都在以指數的速度迅速下降,普通老百姓都能感覺到資料将對人們的生活産生至關重要的影響。雖然,人們談大資料時往往都會談及利用hadoop等新興技術對海量資料處理等技術問題,也會談及facebook、google等公司所處理的pb級别資料的問題。但是,正如周濤教授所言,大資料的核心問題在于預測。電子商務網站通過資料預測顧客是否會購買推薦的産品;信貸公司通過資料預測借款人是否會違約;執法部門用大資料預測特定地點發生犯罪的可能性;交通部門利用資料預測交通流量。但是,預測不是大資料時代才有的新問題,它是人類本能的一部分。心理學家認為,對世界一緻性觀點的需求以及對環境控制力的需求是人類的兩個基本需求,而在此基本需求驅動下,人類像“樸素的科學家”(na?ve scientist)一樣行為,理性地合乎邏輯地驗證自己關于世界的假設。即使原始人通過他的切身體會也可以知道,如果将手伸到火中将會被燙傷。這樣,原始人根據其直接經驗可以建構關于火與燙傷之間關系的關聯模型。數字是人類直接感覺的延伸,正如麥克盧漢所說,“數字是我們最親密的、互相關系最密切的(觸覺)的延伸與分離……古代世界不可思議地将數字與物質實體的性質聯系在一起,與事物的因果關系聯系在一起……科學始終傾向于将一切客體量化……(數字是)我們的中樞神經系統在電力時代的延伸。”而未來無所不在的傳感器将構成地球的中樞神經系統(central nervous system for the earth cense)。這個地球的中樞神經系統使得人們能夠超越其直接體驗,感覺到來自地球每個角落的訊息,這些形式多樣的、海量的、快速的(variety、volume、velocity)資訊流将構成大資料時代的主要特征。而人們将基于這些資訊了解世界,建構與驗證關于世界的新的假設,并以此為基礎進行預測,并采取行動。

       但是,與科學研究中以求真為目的的構模組化型不同,大資料時代的模型建構将更加以務實為目的,即遵循統計學家george e. p. box的觀點“本質而言,所有模型都是錯誤的,隻是有些模型更有用”(essentially, all models are wrong, but some are useful)。大資料時代的很多模型都是為了指導商業決策而設的,而商業決策通常會影響決策者的利益。是以,一個模型是否正确不是最重要的,重要的是決策者對這個模型有多大的把握,決策者能否從這個模型中獲利。是以,大資料時代中最為關鍵的應該是基于資料的模型能否說服決策者據此進行決策,并且幫助決策者改善決策賺取相應的利潤。前者表現為決策者願意将多少錢押在這個模型上,而後者表現為這個模型在現實中的表現如何。是以,如果讓讀者你參加本文開始所設計的假想賭局,無論約翰博士看起來多麼專業也不能阻止讀者更相信胖托尼的模型,因為畢竟這涉及到真金白銀。胖托尼也許在最初和約翰博士一樣,相信硬币正反面朝上面落地的機率各是50%。既然所有模型都是錯的,但是胖托尼能夠利用他所觀察到的硬币一次次正面朝上落地的事實修訂他的模型,使其越來越接近真實情況。而約翰博士仍然抱殘守缺,固守着他的50%的最初假設。

       以賽亞*伯林(isaish berlin)曾經援引古希臘詩人的殘簡“狐狸多知而刺猬有一大知”将知識分子分為狐狸和刺猬兩類。刺猬用一個宏大的概念解釋所有現象,如約翰博士一般;狐狸知道很多事情,用多元化的甚至互相沖突的視角看待問題,狐狸也願意包容新的證據以使得自己的模型與之相适應,如胖托尼一般。tetlock等人的研究表明,在現實的預測中,狐狸的表現要優于刺猬。在大資料時代,人們能夠接觸越來越多的資訊,這些資訊能否修訂決策者已有的觀念,對決策者的決策産生影響,這是大資料能否發揮價值的關鍵所在。有些刺猬類決策者,他們可能會有意無意忽略與其觀念相左資料而隻保留那些能夠證明其想法的資料,在這裡無論系統處理了什麼規模的資料,這些系統投資也隻是粉飾太平的裝飾,沒有太大意義。

很多人都知道亞當斯密(adam smith)在《國富論》中所描述的市場中的“看不見的手”。在市場中,沒有人掌握有關生産和消費的全局資訊,但是人們通過市場交易對供需的行為作出反應,進而逐漸更新價格,進而達到平衡。與亞當斯密同時代且同在蘇格蘭接受教育的thomas bayes的貝葉斯定理(bayesian's theorem)也和亞當斯密的“看不見的手”有相通之處。貝葉斯理論允許每個人擁有有關世界的先驗的信念,胖托尼也許最初認為硬币正面朝上的機率是1/2,如果他看到了99次投擲硬币的結果中有50次是正面朝上,他會認為這個硬币正面朝上的機率是51/101,大緻可以确信硬币正面朝上的機率是50%。而當他看到了連續99次的硬币正面朝上落地,則他不斷利用資料修改其信念,認為這個硬币可能有問題,正面朝上的機率應為100/101,即本文開始部分所預測的99%。當然,你也可以如約翰博士一樣固守自己最初50%的教科書般的假設,而這樣的結果是你輸掉了一次又一次的賭博,直到出局。

       利用新的資料與新的證據不斷修訂對世界的假設是狐狸式的思維方式也是貝葉斯思維方式的基本理念,這也應當是大資料時代思維的基本理念。随着網際網路及雲計算的普及,在大資料時代,人們有機會從多個管道、多個角度獲得對事物的知識。貝葉斯的“看不見的手”利用這些知識逐漸修訂人們對事物的假設,而人們基于這些假設進行的決策通過亞當斯密的市場的“看不見的手”被評估與選擇,進而形成相應的社會秩序。無論人們最初關于事物的認識存在什麼樣的差異,在貝葉斯與亞當斯密兩重“看不見的手”的作用下,“随着越來越多的證據的出現,我們的信念将趨于一緻,并且趨于真相……即使我們最初擁有有誤的甚至是錯得離譜的先驗認識,最終也将趨于真相。”

<b>原文釋出時間為:2013-09-29</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀