天天看點

區塊鍊與大資料究竟有着怎樣的關系?

來源 | 全球大資料峰會

區塊鍊與大資料究竟有着怎樣的關系?

今天,很多人還沒弄懂大資料,區塊鍊又來了。區塊鍊與大資料究竟有着怎樣的關系?

進入大資料時代,雲計算成為大資料基礎設施,也使得大資料的核心思想和雲計算一脈相承。

大資料和區塊鍊兩者之間有個共同的關鍵詞:分布式,代表了一種從技術權威壟斷到去中心化的轉變。

區塊鍊讓資料真正“放心”流動起來

區塊鍊以其可信任性、安全性和不可篡改性,讓更多資料被解放出來。用一個典型案例來說明,即區塊鍊是如何推進基因測序大資料産生的。區塊鍊測序可以利用私鑰限制通路權限,進而規避法律對個人擷取基因資料的限制問題,并且利用分布式計算資源,低成本完成測序服務。區塊鍊的安全性讓測序成為工業化的解決方案,實作了全球規模的測序,進而推進資料的海量增長。

分布式的儲存

大資料,指無法在一定時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資産。大資料需要應對海量化和快增長的存儲,這要求底層硬體架構和檔案系統在成本效益上要大大高于傳統技術,能夠彈性擴張存儲容量。

區塊鍊,是比特币的底層技術架構,它在本質上是一種去中心化的分布式賬本。區塊鍊技術作為一種持續增長的、按序整理成區塊的鍊式資料結構,通過網絡中多個節點共同參與資料的計算和記錄,并且互相驗證其資訊的有效性。從這一點來說,區塊鍊技術也是一種特定的資料庫技術。由于去中心化資料庫在安全、便捷方面的特性,很多業内人士看好其發展,認為它是對現有網際網路技術的更新與補充。區塊鍊則是純粹意義上的分布式系統。

分布式計算

大資料的分析挖掘是資料密集型計算,需要巨大的分布式計算能力。節點管理、任務排程、容錯和高可靠性是關鍵技術。Google是這種分布式計算技術的代表,通過添加伺服器節點可線性擴充系統的總處理能力,在成本和可擴充性上都有巨大的優勢。現在,除了批計算,大資料還包括了流計算、圖計算、實時計算、互動查詢等計算架構。

區塊鍊的共識機制,就是所有分布式節之間怎麼達成共識,通過算法來生成和更新資料,去認定一個記錄的有效性,這既是認定的手段,也是防止篡改的手段。區塊鍊主要包括四種不同的共識機制,适用于不同的應用場景,在效率和安全性之間取得平衡。以比特币為例,采用的是“工作量證明”,隻有在控制了全網超過51%的記賬節點的情況下,才有可能僞造出一條不存在的記錄。

大資料與區塊鍊的不同點

2011年,“大資料”第一次上榜,位于技術萌芽期的爬坡階段,當時還統稱為“Big Data and Extreme Information Processing and Management”(“大資料”和極端資訊處理和管理)。2012年更進一步,并在2013年幾乎達到了過熱期頂峰。經曆了2014年的下滑,從2015年開始,“大資料”突然從曲線中消失,可解讀為Gartner對大資料的定位已從“新興”轉為“主流”。目前,大資料對于企業的意義已從能力要素上升為戰略核心。相對而言,“區塊鍊”直到2016年才第一次出現在《技術成熟度曲線》中,并直接進入“過熱期”。總的來看,“大資料”和“區塊鍊”所處的生命周期階段大不相同,兩者約有5年左右的差距。

大資料通常用來描述資料集足夠大,足夠複雜,以緻很難用傳統的方式來處理。區塊鍊能承載的資訊資料是有限的,離“大資料”标準還差得很遠。

大資料與區塊鍊的差異:

  • 結構化 vs 非結構化:區塊鍊是結構定義嚴謹的塊,通過指針組成的鍊,典型的結構化資料,而大資料需要處理的更多的是非結構化資料。
  • 獨立 vs 整合:區塊鍊系統為保證安全性,資訊是相對獨立的,而大資料着重的是資訊的整合分析。
  • 直接 vs 間接:區塊鍊系統本身就是一個資料庫,而大資料指的是對資料的深度分析和挖掘,是一種間接的資料。
  • 數學 vs 資料:區塊鍊試圖用數學說話,區塊鍊主張“代碼即法律”,而大資料試圖用資料說話。
  • 匿名 vs 個性:區塊鍊是匿名的(公開賬本,匿名擁有者,相對于傳統金融機構的公開賬号,賬本保密),而大資料有意的是個性化。

在區塊鍊中使用大資料技術

  1. 區塊鍊是一種不可篡改的、全曆史的分布式資料庫存儲技術,巨大的區塊鍊資料集合包含着每一筆交易的全部曆史,随着區塊鍊技術的應用迅速發展,資料規模會越來越大,不同業務場景區塊鍊的資料融合會進一步擴大資料規模和豐富性。
  2. 區塊鍊以其可信任性、安全性和不可篡改性,讓更多資料被解放出來,推進資料的海量增長。
  3. 區塊鍊的可追溯性使得資料從采集、交易、流通,以及計算分析的每一步記錄都可以留存在區塊鍊上,使得資料的品質獲得前所未有的強信任背書,也保證了資料分析結果的正确性和資料挖掘的效果。
  4. 區塊鍊能夠進一步規範資料的使用,精細化授權範圍。脫敏後的資料交易流通,則有利于突破資訊孤島,建立資料橫向流通機制,形成“社會化大資料”。基于區塊鍊的價值轉移網絡,逐漸推動形成基于全球化的資料交易場景。
  5. 區塊鍊提供的是賬本的完整性,資料統計分析的能力較弱。大資料則具備海量資料存儲技術和靈活高效的分析技術,極大提升區塊鍊資料的價值和使用空間。