大資料文摘編譯作品,歡迎個人轉發朋友圈;其他機構、自媒體轉載,務必背景留言,申請授權。
摘自|《資料新聞:釋放可視化報道的力量》(人民大學出版社)
政府為什麼要釋出資料?因為這能讓他們看起來公開透明;大型公司和企業為什麼也對資料喜愛有加,因為資料能為他們帶來經濟效益、創造價值。一些剛剛起步的新公司在積極尋求從資料中掘金的方法,而一些最成功的公司早就已經把資料融入了他們的業務實體。
這一切都和大資料的概念有關,因為公司在運作過程中會産生海量資訊。截至2011年4月,美國國會圖書館硬碟中儲存的資料量達到235TB①,但這和商業公司擁有的資料量比起來,還真算不了什麼。根據最新的資料,平均每17家美國公司中,就有15家公司的自有資料量超過國會圖書館。
當然,資料也會給商業活動帶來風險,對有些公司來說甚至是一種威脅。據稱,維基解密掌握了美國銀行的内部秘密檔案,該銀行為了應對此事,已經召集了一批律師當他們的“特警隊”。至于那些資料,現在連半個影兒都沒見着,倒是銀行确實花費了不少錢。
每當你在使用商場積分卡時,下載下傳音樂或者網上約會時,你的這些行為資訊都會被商家分門别類地記錄下來。這些公司會分析收集到的資料,讓它們變得有用,更好地指導公司的發展。
世界上到底有多少資料?一張售價不到600美元的硬碟,能夠裝下世界上所有的錄制音樂;全球的行動電話保有量目前為50億部,如果想要男女老少人手一部,還有20億的缺口;Facebook上每個月分享的内容多達300億條。
2011年春,麥肯錫咨詢公司釋出了首份大資料報告,試圖量化出資料在商業領域裡的價值,并探求價值如何更好增長。麥肯錫公司預測,全球的資料量以每年40%的速度在增長。按此計算,每兩年就會翻番。如果你覺得現在的資料就已經足夠多了的話,那且看看十年之後的情況吧。
“世界上的資料量在迅速增長,分析這些大型資料庫(也就是所謂的大資料)将成為一種核心競争力,會在提高生産率、創新和消費需求等領域形成新的潮流,”麥肯錫公司表示,“不僅僅是一些常和資料打交道的經營者,各個部門的上司者都會受到大資料的深刻影響。”
這些資料都從何而來呢?第1章裡闡述的資料開放運動在一定程度上帶來了資料激增,資訊化的工作方式也已初成氣候。不止于此,我們還有很多網際網路時代特有的物件,例如行動電話和平闆電腦,這類産品能大量搜集使用電話和網絡時産生的資料。此外,還有Web2.0時代的産物:多媒體、社交媒體和電子商務。
麥肯錫的這份報告還是很值得仔細研讀的,全世界的CEO們都在紛紛傳看,這也證明了它在全球商業領域的影響力。
該報告的撰寫小組還關注了很多細分領域的大資料價值:如果合理利用資料,美國零售業能将營業利潤增加六成以上;美國醫療服務業能把成本降低8%,并帶來3 000億美元的潛在産值;歐洲政府會提高運作效率,節省1 490億美元開支;全球移動手機營運商的地理标簽服務,價值會超過6 000億美元。據他們計算,歐洲各國政府的總資料價值已經達到2 500億美元,超過了希臘的GDP。這也為更好地解決歐債危機提供了新的視角。
盡管這份報告在商業世界裡掀起了軒然大波,但所有的這一切都将會真實發生嗎?
理論上說是的。我們周圍确實有很多資料。據麥肯錫公司估算,2009年,美國各經濟領域中的每一家大型公司,至少儲存有200TB的資料。相比之下,超市連鎖企業沃爾瑪在1999年時的存貨資料就達到了他們的一半。
“使用大資料,将會是個别企業競争和成長的關鍵形式,”麥肯錫公司說,“不管是從競争的立場,還是從擷取潛在價值的角度,所有的公司都需要重視大資料。在大部分行業裡,已有的商業對手和業界新人,都将利用資料驅動政策來進行創新、競争和擷取價值。”
資料更加透明,讓各國政府嘗到了甜頭。同樣的道理,資料變得更加開放,也會讓企業自身從中受益。不過,商業資料中到底有多少是真正需要被保密的呢?假如所有的一切都是不能說的秘密,這不會給任何人帶來好處,也會讓公司看起來神秘莫測而不值得信賴。從另外一方面來說,資料開放隻會增加信任。
當然,以電子化的方式儲存商業财經資料,也會不可避免地帶來意想不到的效果。當資料被分析後,商業世界的運轉變得更加高效,正如麥肯錫報告裡所說:“從産品庫存到生病休假,他們能收集到所有的資訊,而且更加精确細緻。”
這隻是一個新的工具而已。
那麼,在商業實踐當中應該怎樣操作運用?在英格蘭伯克郡的紐布利,行動電話公司沃達豐①的營運總部,有一塊巨大的螢幕,上面顯示着公司每一項業務的動态變化,還可以看到使用者們的電話使用詳情。要是在新年前的午夜去那,你會在一間大黑屋子裡看到,資料在無數的螢幕上來回穿梭。倫敦:117 000條;格拉斯哥:115 000條;曼徹斯特:75 000條;利茲:70 000條……還有一組身着黑衣的技術人員,在尋找可能超出系統處理能力的信号。這些資料代表的是,在新年的第一個半小時裡,短信的發送量(純實時動态資料)。平均每一天,沃達豐公司的使用者們會打9 000萬通電話、發8 000萬條短信;在通常情況下,沃達豐每24小時搜集的資料量達45TB,這相當于1 125萬首音樂歌曲的大小。
沃達豐采用的做法是,利用資料分析,提前掌握使用者需求。在2011年皇家婚禮②前夕,公司就增加了額外的臨時基站來應對沉重的網絡負擔。接招合唱團③宣布要重組複出舉行巡回演唱會之後,樂隊的官網一度崩潰。此時,沃達豐着手準備迎接即将到來的短信大潮,因為歌迷之間會互相發資訊,看看他們是否搞到了演唱會的票。
沃達豐營運中心的另一面牆上,展現的是英國與217個國家的連線圖,實時監控着從境外進來的電信網絡流量。據該公司介紹,這些資料也顯示出了不同國家文化的“不對稱”。例如,波蘭母親給在英國的兒子發短信,問問他們近況如何,可兒子們卻沒有回複。與之相比,法國人則基本上是“對稱”的——發出去的短信,會收到回複。随着埃及和巴林島的局勢更新,沃達豐也能實時看到這些事件是如何影響通信網絡的。
即使是電子郵件發送的一分賬單,也能引發一整串資料事件:使用者收到賬單;大多數人會打開檢視;一些人有疑問就會緻電客服。現在是一個小時發送40 000份電子賬單郵件,如果客服接到的電話過多,則相應減少賬單發送量,以此來降低打進電話的數量。
沃達豐隻是衆多利用大資料的公司之一。聯邦快遞是如何在一天之内将包裹送達的?亞馬遜商城是怎樣來确定每件商品合适的備貨量,它又是如何知道你可能會喜歡這件商品的?他們的倉庫裡為什麼沒有堆滿賣不出去的過時音響?這些都與大資料有關。
其他公司也是“無資料,不可活”,運用資料的方法當然也各有千秋。益百利(Experian)①作為信用評級提供商,他們的産品顯然很少是原始資料,而是基于資料的分析。還有樂購(Tesco)②公司,他們每個月記錄15億個資料點,還會利用諸如會員卡這樣的資料來增加資金份額、提升市場占有率。
對于一些更新潮的公司來說,其産品本身就是基于資料生産的,而且是無縫一體化的流程。社交媒體LinkedIn③從始至終就依靠資料來運作,也就是說,你在LinkedIn上建立資料檔案時,他們拿着你輸入的個人資訊,可以組織編排成新的産品和服務。一定程度上講,他們的這種做法也迎合了人們自我描述的需求。
是以,也有不少人往自己臉上“貼金”、過度美化。2008年時,很多人都自诩“磚家”,有點像“資料大師”那種。到2009年時,“福音傳道者①”的稱号蓋過了它的風頭。而現在,每個人都是“絕地武士②”。你是哪一種呢?
同樣,線上約會網站OKCupid也開始重視使用者使用資料的搜集。使用者上傳哪種類型的照片最受歡迎、男性與女性有什麼不同、黑人與白人的品味差别又在哪,這些細節資料都會定期更新。他們的資料還顯示,使用蘋果手機的人比使用黑莓手機或安卓系統的人,性欲更強。
還有你使用的Google,它也完全是靠資料運作的。不管是搜尋引擎,還是針對每個市場量身定做的廣告,抑或是谷歌郵箱Gmail的智能收件箱,在谷歌公司的運作中,資料無孔不入。至關重要的是,使用大資料能夠讓公司把客戶進行細分,打造例如私人定制這樣的服務。随着大資料的到來,資料需要變得更易于了解。經濟學家赫伯特·西蒙(Herbert Simon)說:“資訊越多,關注度就越少。在資訊源過載的情況下,有效地配置設定關注度或許會解決這個問題。”更加複雜的軟體和資料可視化技術,意味着大資料變得越來越易于處理。再加上新的協作技術,人們能夠在不同的地方處理相同的資料,于是就形成了一個強大的組合。
當然,資料的出現也催生了另一些需求,比如目前比較緊缺的與資料相關的工作崗位。麥肯錫公司估算,單就美國來說,到2018年時需要190 000名深度分析型“資料科學家”,而現階段需要的是精通資料挖掘的大資料分析師。此外,還缺150萬名懂資料的管理人員來做有效決策。
本文摘自《資料新聞:釋放可視化報道的力量》(人民大學出版社)