天天看點

塗子沛:資料外部性這把“大資料之劍”

“大資料”早已是個大衆耳熟能詳的概念,但在它的研究者看來,“大資料時代”其實剛剛開始。将大資料概念帶入中國人視野的資訊專家、《大資料》《資料之巅》的作者塗子沛,近日出任阿裡巴巴副總裁,主導資料新商業模式的研究與應用實踐,身在大資料現場的他,将為澎湃新聞撰寫一系列他對大資料前沿話題的思考。本文是第一篇。

2007年,微軟的工程師阿爾卡斯(blaise agueray arcas)有過一個創舉,他利用flickr網站上的照片重建了一座虛拟的巴黎聖母院大教堂,通過點選,人們可以在網上從不同的角度感受這座教堂,甚至可以放大、細賞其建築外牆上的一個具體部位,而這些照片,卻是成千上萬普通人拍攝的,阿爾卡斯在演講中說,這是“從每個人那裡得到資料——從人類對地球的集體視覺記憶中得到資料——然後把它們聯結在一起”。

阿爾卡斯的創舉并不是孤例。2014年10月8日,世界多地出現月全食,全球無數台手機對準天空的月亮,随着咔咔聲響,成千上萬張照片奔湧到雲上。這些照片從不同的地點、不同的角度記錄了同一個物體,天文研究者已經認識到,如果整合起來,其對研究工作的意義可能比一台超級天文望遠鏡還要重大。

這兩個例子中的照片,可謂異曲同工。人們之是以拍照,是為了娛樂、分享。但這些照片被整合起來之後,我們很容易發現,它們産生了新的效用。這些效用,遠遠超出了拍照人最初的目的。這種現象,我稱之為“資料的外部性”。

“外部性”并不是一個新的概念,經濟學家在這個領域的研究,已經有上百年的曆史。他們發現,一個普通個體為了自身利益而做出的“利己行為”,也可能讓其他人或者整個社會受益,并且受益者無須為此支付費用。

我借用這個概念,想指出的是,資料的作用完全可能超出其最初收集者的想象、也完全可能超越其最初資訊系統設計的目的,即同一組資料可以在不同的次元上産生不同的價值和效用,如果我們能不斷發現、開拓新的使用次元,資料的能量和價值就将層層放大。

研究資料的外部性,對我們正在邁進的新經濟、資料經濟具有非常重要的意義。

阿裡巴巴之是以能夠不斷成長、擴張,其中的一個重要原因,就是用好了“資料外部性“。由于擁有淘寶、天貓、支付寶、b2b等電商平台,阿裡巴巴積聚了大量的商家交易和支付資料。阿裡巴巴收集這些資料,一開始僅僅是為了完成網上交易的流水記錄。

2010年開始,阿裡巴巴逐漸意識到了這筆記錄的潛在價值,現任阿裡雲總裁胡曉明先生率隊開始研究如何利用這些資料,判斷商家的資信,進而為其發放貸款。這就是“阿裡小貸”的發源,2014年,胡曉明總結說,阿裡小貸已經為70多萬小微企業提供了貸款,其單筆信貸的成本為2.3元、客戶3分鐘獲貸、不良率低于1%,這些名額都遠遠低于傳統的銀行。

阿裡小貸是中國網際網路金融領域開拓性的标本項目,也是日後阿裡巴巴擴張、拆分出一個新的集團——螞蟻金服的重要基礎,分家不分“數”,螞蟻金服集團的諸多業務,還必須依賴于阿裡集團的資料。在這個成功的基礎上,今天的阿裡巴巴進而提出“一切資料都要業務化”,就是要把所有已經擁有的資料都用起來,挖掘其外部性,讓他們産生新的商業價值。這當然是一個大資料公司應該具備的商業使命。

類似的例子國外也有。kabbage是一家成立于2008年的網絡貸款公司,其運作機理和阿裡小貸類似,為了評估貸款人的信用,kabbage不僅高效地整合了ebay、amazon等電子交易平台上的資料,還分析這些企業在物流公司如ups的配送資料、在paypal、square、quickbook等财務系統的賬面流水,以及在社交平台facebook 、twitter上與客戶互動的資料。就挖掘資料的外部性而言,kabbage比阿裡小貸做得更廣、更好,其中的原因,是因為美國社會對資料的所有權、使用權、收入權和轉讓權有更為清晰的界定,資料共享、交易的機制更為成熟。

如果把這兩家公司和傳統的銀行進行對比,我們就更能發現資料外部性之于大資料的關鍵意義。

傳統的銀行要給一家企業貸款,必須針對這項貸款申請去訪談調查、收集資料,而被調查的企業在提出貸款申請之前,已經有所準備,他們可能采取相應的措施迎合、糊弄銀行的調查,也就是說,這個過程是“先有目的、後有資料”,可能因為既定的目的,資料在收集的過程中遭遇扭曲;而阿裡小貸所利用的流水資料,其最初收集的目的是記錄交易過程,完全和貸款申請無關,其資料遭到扭曲的可能性幾乎為零。

也就是說,資料外部性是“先有資料,再應用于不同的場景和目的”,資料的可信度是以更高。

除了推動經濟發展,資料外部性還可以應用到社會管理領域。2014年8月24日,舊金山地區發生了6.0級地震,次日,可穿戴式裝置營運商jawbone釋出了其資料分析。

資料表明,在距離震中較近的地區,有93%的手環使用者在地震發生之時3:20分被驚醒,其中45%在地震之後就沒有再睡着,驚醒使用者的比例随着距離震源的遠近而呈現清晰的規律。可穿戴式裝置收集資料的原始目的是為了監測、改善個體的健康情況,但這些資料加總到一起,新的效用産生了,社會學家可以用它們掌握一個地區的人是否集體在失眠、焦慮,甚至一個晚上總共翻了多少次身,進而可以更好地解釋人際互動乃至社會分層機制,交通部門可以解釋為什麼第二天交通事故增多,保險公司可以利用這些資料制定更加個性化的保單價格……這些前所未有的可能性,都是資料外部性帶來的。

随着傳感器和智能手機的普及,資料還在大規模的爆炸,人體的生理活動、自然環境的狀态、工廠的機器運作、城市的生活将被廣泛的記錄,未來的每一組資料,都具備各種外部性的潛在價值。挖掘利用這種外部性,将給全世界的科學研究、經濟發展和社會治理帶來巨大的機遇。當然,要注意的是,資料外部性也有正、負之分,負的外部性可能會危及國家安全、侵犯公民隐私。這又說明,要用好資料的外部性,我們還亟須建章立制。

原文釋出時間為:2015-01-05

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀