天天看點

大資料熱潮的分析與審視

一、大資料的曆史溯源

大資料熱潮方興未艾,但若要探究何謂大資料的問題以及大資料現象何以如此興盛的原因,我們的眼光就不僅僅隻停留在它時下的具體表征上,還要對産生它的理論根源做深入分析。大資料,冠之大于資料也。從造詞法的角度看,它必然與數和資料有關。是以,如果要将大資料的曆史脈絡梳理清晰,可以以數和資料為線索。

1. 大資料,首先是源于數的概念

數作為人類認知自然世界的載體和産物,貫穿于人類曆史發展的各個階段。從古希臘唯物主義哲學家阿那克西曼德開始使用“本原”一詞,到泰勒斯提出“萬物源于水”,人類逐漸摒棄玄異,開始借助經驗觀察和理性解釋看待世間萬物,這種理性思維的萌芽為數的産生提供了前提。畢達哥拉斯學派所持“數即萬物”的思想,以及創立基于數的自然哲學,實際上是把數看作了世界萬物的本源。之後形成的柏拉圖主義、唯名論等,也将數提升到本體論的高度。同樣地,中國古代文明中諸如道家學派“道生一,一生二,二生三,三生萬物”,《易經》中關于天地“天一、地二、天三、地四”,《論語》中關于為人處世“益者三友、損者三友”,這些将數字賦予意義的說法,譬如,“一”與宇宙本源,“二”與陰陽論,“三六九”與等級衡量,雖然帶有一定神秘主義色彩,但足以見得數對古人世界觀的巨大影響。可以說,數在人類了解自然世界、了解客觀存在的過程中扮演了極其重要的角色,數的出現為人類提供了理性和正确認知世界的方法論雛形,也是資料與大資料的演化開端。

2. 大資料,更是源于資料的概念

相比古代文明對于數的認知模糊而虛幻,随着自然哲學的發展,特别是将資料融入科學研究範式的定量研究方法出現後,人們将客觀事物用資料表征和分析,逐漸發現了量變質變規律,使萬物源于數的本體思想開始變得清晰和具體。例如,實體學家伽利略在天文學上做的定量觀測,可為航海者測算精度;化學家拉瓦錫基于定量分析提出的物質不滅原理;生物學家孟德爾根據實驗資料推導出的遺傳定律等。這些執行個體充分說明,以科學資料為媒介的定量描述正是奠定現代科學研究的基礎。

二十世紀五十年代以來,随着電子計算機的誕生,人類社會步入資訊化時代,“把現象轉變為可制表分析量化形式的過程”〔4〕104,即資料化成為這個時期的重要标志。進入二十一世紀,人們将過去積累的大量觀測資料、理論仿真資料當作研究對象,通過探究其内在統計規律,挖掘資料潛在價值,形成了嶄新的資料科學,其在與其他領域互相交融的過程中,催生了一批新的研究方向,如生物資訊學、計算社會學等交叉學科應運而生。大資料正是在這個背景下被推出的新興概念,關于它的定義,目前學術界關于這個問題隻形成了幾種典型概念,但尚未達成共識。其中比較有代表性的“5v”理論指出,“大資料是無法在一定時間内用正常軟體工具對其内容進行抓取、管理和處理的資料集,具有規模性(volume)、多樣性(variety)、高速性(velocity)、精确性(veracity)和價值性(value)這五大特點”。無論在哪種定義下,大資料的概念都是源于技術層面而遠遠超越技術層面的,即先從技術角度解釋資料與大資料的差別,再談大資料的特點及帶來的變革。後者往往包含其帶給人類生活物質世界的巨大影響,以及帶來的一場以資料化思維探究事物之間的關聯性而非因果性、舍精确性而求複雜性的思維革命。

3. 大資料誕生:自然哲學演化的必然結果

從唯物辯證法基本範疇角度來看,如果說大資料是資訊科學與商業價值邂逅而産生的偶然結果,那麼其背後蘊含的世界觀、生活方式、思維方式的轉變,在人類社會發展曆程中出現卻是必然的。首先,數作為理性思維的工具替代超自然論是人類認知世界方法進步的必然結果。古希臘自然哲學的理性之光,盡管還有些微弱,但從根本上照亮了一條指引後世的正确道路,把人類從愚昧和玄異中解放出來。繼而,資料成為定量精确的描述語言是自然科學研究發展的必然結果。“從科學技術發展曆史來看,科學資料之是以成為重要的研究手段,源于其精确性、一緻性和易交流性的特征”〔2〕39。最後,随着曆史資料的累積與資訊科學的不斷發展,人們開始尋找一種分析和利用大量資料的新方法,大資料的最終出現有着曆史的必然性。

二、大資料熱潮的成因探究

從數到資料,再從資料到大資料,大資料概念的形成可以在自然哲學演化的曆史長河中找到根基。時至今日,雖然科學界對大資料還尚未形成廣泛認同的統一認識,但其掀起的熱潮卻迅速蔓延于人類生活的物質世界,更在主觀世界引起了思維革命。然而,從科學史的角度來看,很多對後世産生深遠影響的科學研究成果,往往經曆了十幾年甚至幾十年的發展和演化。以量子力學為例,從二十世紀初普朗克提出黑體輻射定律開始,到狄拉克提出量子電動力學的原型為止,其初步建立曆時近三十年,為其做出貢獻的不乏alberteinstein、erwinschrodinger等偉大的實體學家,且至今仍有建立在這些基礎之上的科學研究,譬如量子計算和量子控制。大資料作為新興概念面世未久卻有如此之大的影響,是哪些因素所引緻?

1. 資訊科學為大資料熱潮拉開帷幕

大資料源于資訊科學,它的熱潮序幕正是在近十年來資訊科學迅猛發展的背景下拉開的。首先是作為支撐技術與基礎平台的雲計算,其在海量資料存儲、分析與管理等方面提供的技術支撐〔5〕152,為大資料的存在提供了科學前提。二是源于一批大資料處理工具的誕生,使得人們開始利用資料挖掘知識。美國《連線》雜志主編安德森就曾指出,“60年前計算機使得資訊可讀,20年前網際網路使得資訊可達,10年前搜尋引擎将網際網路變成一個資料庫;如今,像谷歌這樣的公司仿佛正在一個巨型的人類社會實驗室裡處理有史以來最多的資料”〔6〕。這段話說明,大資料産生的源頭在資訊科學,正是後者近些年來的蓬勃發展為大資料熱潮打下了基礎。

2. 新方法論構成大資料熱潮的表現形式

大資料誕生于資訊科學的搖籃之中,而由它所引發的一系列革命卻遠遠超越資訊科學的範疇。例如,在談到其對科學研究方法的影響時,有院士認為“大資料引起了人們對科學研究方法論的重新審視,同時正在引發科學研究思維與方法的一場革命”〔7〕649。一言以蔽之,大資料之是以能使人眼前一亮,關鍵在于它引起的方法論變革,可以主要歸納為兩個方面。

一是從因果性到相關性。科學向來與因果有着不解之緣,從古希臘哲學家亞裡士多德的“四因說”,到現代資訊論的因果觀;從解析宏觀物體運動規律的經典力學,到揭示微觀粒子運動規律的量子力學,科學技術就是為世間萬物尋找因和果的方法論。然而,大資料引發思維革命的強勁之處,正在于其不再把小資料時代白箱的因果關系奉為金科玉律,而把關注焦點置于獲得黑箱輸入輸出的相關關系。這種變革産生的原因是,與小資料時代資料精确且結構單一不同,大資料的多源異構、備援稀疏性質,使得要理清所有事物的因果關系幾乎成為不可能事件。當人們退而求其次地選擇黑箱時,發現了一種新的觀察世界的方法。“相關關系很有用,不僅僅是因為它能為我們提供新視角,而且提供的視角都很清晰;而一旦把因果關系考慮進來,這些視角就有可能被蒙蔽”〔4〕88。通過先進處理技術探索海量資料之間的關系,可以構築一個更清晰更透明的世界,這是大資料帶來的第一個方法論變革。

二是從精确性到複雜性。對于小資料而言,最重要的是标準統一與精确絕對;而大資料是一門集複雜性、多樣性為一體的方法論。這就如同中藥與西藥在認知論上有所差別,最終導緻了治療方法論的差異。前者紮根于中國古代哲學思想,基于宏觀經驗,強調整體與混雜,形成了以辨證論治為治療特點的中醫理論體系〔8〕3。後者基于亞裡士多德的生物哲學,講究定量與精确,逐漸形成了生物醫學體系。事實上,大資料更提倡融合這兩種模式的優勢,即以定量的資料化思維為藍本,加以多樣性與複雜性,帶領人們進入一片尚未涉足的領域。“相比依賴于小資料和精确性的時代,大資料因為更強調資料的完整性和混雜性,幫助我們進一步接近事實的真相”〔4〕46,闡述的就是這個道理,這是大資料帶來的第二個方法論變革。

此外,“通過讓資料發聲,提出了科學始于資料的知識生産新模式,增添了科學發現的邏輯新通道”〔9〕83,這些方面使得大資料被視作一種新的方法論。

3. 社會進步助推大資料形成熱潮

科學技術發展是推動人類社會前進的革命性力量,特别是最近幾個世紀,科學技術發展為社會帶來的變革與進展給人們留下了非常深刻的印象。始于十九世紀後半葉的第二次工業革命,帶來了電力的大規模應用,使電燈、電話走進日常生活。二十世紀中葉以來,以電子計算機、原子能、合成材料技術的應用為代表的第三次工業革命,促進了各個領域的現代化建設。2014年,工業強國德國正式推出“工業4.0”概念,這被認為是未來十年至二十年内将要發生的第四次工業革命,旨在“提升制造業的智能化水準,建立具有适應性、資源效率及人因工程學的智慧工廠,在商業流程及價值流程中整合客戶及商業夥伴”〔10〕。大資料将于其中發揮十分重要的作用,就如同大腦是人類智慧和意識産生的基礎一樣,大資料認知論和方法論将是未來工業革命的智慧源泉。盡管大資料還面世未久,但卻很快應用于各個領域,直接推動了社會進步。在宏觀經濟方面,ibm公司從網際網路中搜尋影響制造業的480項經濟資料,建立了經濟名額預測系統;在醫療衛生領域,據麥肯錫公司估計,“如果把大資料用于美國的醫療保健,将産生年均三千億美元的潛在價值”;在公共安全領域,利用媒體和通訊資料,可以實作實時的輿情發掘和犯罪預測〔11〕48。以上例證隻是一些縮影,在這些典型案例的背後,還存在着諸多大資料廣泛應用的事例。由此可見,大資料對社會進步有着巨大的推動作用,後者是前者的根本目的。

馬克思曾指出,“人類奮鬥所争取的一切,都同他們的利益有關”〔12〕82。科學技術是第一生産力,大資料作為科學技術的産物,提供了一種新的認知世界的方法。它使決策更加科學化、市場更加透明化,同時帶來新産品新産業,其創造價值财富、推動社會進步的成效顯著。是以可以說,正是因為在價值創造與社會進步方面為大多數人謀求了廣泛的利益,使得政産學研等社會各界都對其有所推動,大資料才最終形成了一股熱潮。

以上全面系統地歸納了大資料誕生并形成熱潮的原因,即資訊科學是質料、新方法論是形式、政産學研是動力、社會進步是目的,恰好內建了古希臘自然哲學家亞裡士多德的“四因說”思想。

三、對大資料熱潮的再審視

2012年是世界公認的大資料元年,自那以後,大資料的概念仿佛一匹健壯的黑馬,以一日千裡之勢迅速占據了學術界、産業界的思想陣地,甚至政府層面也逐漸将其視作戰略資源。以上歸納出了大資料熱潮的形成原因,即回答了為什麼大資料能夠如此蒸蒸日上、熱火朝天地流行和發展起來的問題。那麼,大資料如火如荼的背後究竟還有什麼值得我們思考?

根據高德納咨詢公司關于技術演變路線的理論,“新興技術往往要經過萌芽期、膨脹期、低谷期和爬升期,才能進入實質生産的穩定期;大資料時下正處在期望膨脹的高峰期,預計還需要五至十年才會達到穩定期”〔13〕。時下,當大資料已經成為一股席卷各個領域的熱潮,當人人都熱衷于提起大資料,甚至抛出“大資料萬能論”的觀點,但對它的概念、技術和應用都不求甚解時,我們對其賦予的魅力和價值理性與相對合理的範圍比起來,顯然是有過之而無不及了。如此過度地熱炒,将不利于人們全面客觀地認識大資料,反而會加速概念泡沫的形成。相反地,如果我們能做到在冷靜透視熱潮成因的基礎上,縷清大資料現象和本質,既利用其優點與長處,也反思其不足與局限,大資料才能進入真正的穩定期,進而才能永久地為人類造福。是以,站在唯物辯證法的角度對大資料熱潮作重新審視,是有必要也是有價值的。

1. 反思:資料本體論與應用局限

關于數的本體論思想,即“一切事物的性質都可以被歸結為數的規定,數的規定性比實體屬性更加普遍”〔14〕15,從古希臘畢達哥拉斯學派将數視為萬物本原開始綿延千年,對後世有着很大影響。作為數的延伸,資料在現代科學中也被用于诠釋宇宙萬物的本原,比如以恒定資料表示的實體常數,似乎自然規律就是資料。繼承了這種思想,大資料也被人解讀為“萬物源于數”本體思想的回歸〔1〕120,即資料不再是用于表征客觀世界的方式,而變成了世界的本體。這種觀點其實就是在說,“大資料使得萬物皆可被資料化,世界就是一個資料化的世界,世界的本質就是資料”〔15〕。

誠然,資料化可以讓很多事物變得既清晰又精确。但是,資料真的可以囊括一切嗎?即使它的确能囊括一切,真的就應該讓它囊括一切嗎?這個問題若從自然科學的角度回答,予以肯定尚顯合情合理,但如果說人類的精神世界也要被資料化才能被更好地開墾,恐怕多數人不會同意。以書法審美哲學為例,所謂雄渾大氣、勁峭險絕的風格特征,所謂陰陽平衡、剛柔相濟的文化内涵,都是與人類主觀世界相符的精神境界與藝術追求,都是人的感受與客觀規律的統一。即便資料化可以讓書法作品被更友善地拓印和傳播,但終究不能替代情理交融、知行合一的審美情趣,更難以囊括廣袤無垠的人類精神世界。

2. 反思:資料之客觀性與确定性

大資料是以資料為基礎的方法論,隻有建立在資料是正确的基礎上,大資料方法才有可能産出有價值的結論。然而,數的概念畢竟是人類思維的産物,“資料的客觀性仍然受到人類主觀因素的影響,這一特性從數的産生就一直存在;資料是事物客觀性和人類主觀性的紐帶,也是人類認識世界的橋梁”〔2〕39。從這個意義上講,資料非但不是客觀世界的本體,而且其客觀性還要受人類主觀意志左右。是以,人們基于大資料挖掘出的知識,其客觀性并不是毫無疑問的。譬如,社會學研究常用的調查研究方法,雖然在大規模量化分析方面很有優勢,但由于個體主觀可能存在偏差,有些甚至出于利益目的僞造資料,由此帶來的是資料本身客觀性的缺失,進而使它的上層建築,即通過大資料分析産出結果的客觀性遭到質疑。

關于資料的另一個重要命題是它的确定性。量子力學中的海森堡不确定性原理表明,微觀粒子的位置與動量、能量與時間等實體量在同時測量時具有不确定性。事實上,“客觀世界中的絕大部分現象都是不确定的,所謂确定的、規則的現象,隻會在一定的前提和特定的邊界條件下發生,隻會在局部或者較短的時間記憶體在”〔16〕1584。故而,不僅人類的主觀認知會讓資料“出問題”,客觀世界中的現象所具有的不确定性,也使測量資料在表征客觀世界時總存在誤差。是以,要想通過大資料得到盡可能正确的結果,資料的客觀性與确定性問題仍是熱潮下亟待冷靜面對和解決的問題。

3. 反思:“雙刃”效應背後的倫理問題

所謂科學技術是把“雙刃劍”,是源于人的利益問題。其中,科學旨在揭示客觀世界的真理和普遍規律,更多貫徹的是真理性,還談不上“雙刃”效應;而“技術是否為雙刃劍取決于使用者,不當使用會導緻不良結果”〔17〕107,這是因為技術屬于實踐範疇,往往夾雜着利益追求,更多貫徹的是價值性,是以有可能帶來負面效應。大資料是科學技術的産物,是真理性和價值性的統一,一方面可以被用來生産新産品、創造新産業,為多數人帶來财富。另一方面,“求利的本性使得技術成為人們謀取物質利益的物質手段;因為人的利益問題,技術應用往往會帶來負面效應”〔18〕36,即便是作為新興技術的大資料也不例外。随着2013年美國“棱鏡門”事件的發酵,面對無處不在的資訊采集源頭和強大的分析挖掘能力,上至國家安全威脅與社會數字鴻溝,下至個人的數字身份與隐私洩露,大資料帶來的倫理問題〔19〕38-44着實令人憂慮。十八屆三中全會設立的國家安全委員會,已經把資訊安全提升到國家戰略層面。就“大資料本身機遇與挑戰并存”〔11〕49而言,必須存在這樣一條準繩:既存有法律的強制規範與倫理道德的軟性限制,也留有供其施展本領的廣闊空間,以促進價值創造和社會變革。如此,人們才可以尋找機遇與挑戰之間的最佳平衡點,開辟一條多謀福祉、少些傷害的道路,把握好大資料這把“雙刃劍”。

4. 結論:“賦魅”與“祛魅”的平衡

在大資料熱潮的背景下,很多關于它的命題都被人的價值理性過度放大了。譬如在學術界,仿佛一夜間便迅速占據了資訊科學的研究前沿,隻有與大資料有關才是順勢而為。在商業界,大資料價值連城,擁有它就等于擁有商機和财富。2014年初,廣東省更是率先成立了我國首個地方政府的大資料管理機構。當這股熱潮已經蔓延于社會的各個角落時,在人們的有限感覺和了解中,大資料被賦予了萬能的魅力。但與此同時,多數人對于這個被天生“賦魅”的新興名詞不求甚解,甚至對其概念、技術和應用都一無所知,隻是盲目地依附于潮流。這種偏離合理範圍的“賦魅”,将不利于人們站在辯證的角度全面看待事物。反之,如果讓大資料無限制地“祛魅”,将使得工具理性走向極端。人們将在看清資料本體論與其應用局限、資料準确性與客觀性這些問題的基礎之上,進一步朝着功利化和實用化的目标邁進。照此發展,技術的“雙刃”效應将顯露無疑,大資料也将淪為人們追逐利益的利器。

由此可見,過度地“賦魅”與無限制地“祛魅”,都不是應對大資料熱潮的正确選擇。唯有“把工具理性和價值理性相結合,即讓‘祛魅’和‘賦魅’有機結合起來”〔20〕61:一方面,要把握大資料“雙刃劍”,發揮優勢功能,降低負面效應,以更好地為人類造福;另一方面,也要全面客觀地重新審視大資料的方方面面,時常反思其問題和局限。

四、結語

自問世之日起,大資料不僅改變了人類生活的物質世界,更在主觀世界引發了思維革命。以古希臘時期“萬物源于數”的本體論思想為開端,以定量刻畫的資料思維為基礎,大資料的誕生是自然哲學演化的必然結果。近些年來,作為質料因的資訊科學、作為形式因的新方法論、作為動力因的政産學研、作為目的因的社會進步,共同構成了大資料熱潮的主要成因。面對如火如荼的大資料,我們應該冷靜透視熱潮背後的本質,以全面客觀的辯證視角重新審視資料本體論及其應用局限、資料的準确性和客觀性等問題。我們對大資料的“賦魅”與“祛魅”要有機結合,既不能以過分的價值理性阻礙正确認知,又不能以極端的工具理性追逐利益。

此外,源于技術本身追逐利益的性質,應用大資料可能帶來一些負面效應,這是難以避免的。但大資料終究将是科學技術甚至是人類社會發展的曆史程序中出現的奇妙一筆,作為發現者的我們,理應以辯證視角審視大資料熱潮中的種種機遇與挑戰,更好地為人類謀求福祉。

原文釋出時間為:2015-10-03

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀