本講座選自清華-青島資料科學研究院大資料基礎設施研究中心特聘研究員劉運渠9月5日在Odaily星球日報 X 36Kr P.O.D大會上所做的題為《下一代資料網:資料驅動的雲網鍊一體化》的演講。
以下是演講圖文實錄
▼
劉運渠:資料驅動的雲網鍊一體化,它潛在的商業場景,是把它作為一個基礎設施來提供。清華-青島資料科學研究院是一個多學科的交叉融合,與資料确權和安全多方計算的核心技術,來建立的資料分享平台。它的目标是實作一個大資料自來水管道,做到一些資産服務和創新技術,最重要的目标是實作資料驅動。
現有的三大核心技術雲、網、鍊各自有一些缺點。資料協定方面,有資料孤島的問題,成本和靈活性的問題及資料确權和效率的問題,這是清華大學下一代資料網絡試圖解決的問題,最主要的方法是通過區塊鍊技術的研究和産業化方面來做一些動作。
剛剛講了一些機構性的介紹,下面會深入到技術和産業細節裡面去。
什麼是這三大塊融為一體化,這是一個很大的野心。
我們能不能占一個萬米的高空,看這三大技術的關系呢?我們看到機器學習的AI,它得益于大資料,同時它又為大資料提供了一個得力的工具。雲計算,跟邊緣計算、霧計算一起,在不同的場景,有不同的需求。對于雲計算來講,大的資料在需要計算力方面有一個彈性。當我需要算力的時候,我希望無窮大;當我不需要算力的時候,手機的CPU是閑着的,是以這是計算力共享的問題。
基礎設施試圖轉向以資料為中心的場景,大家已經比較熟悉一些CDN、NDN、ICN、DCN,本質是把網絡從比特流轉向資料。我們認為未來的價值焦點,也就是從大資料視角來看,它不僅僅是資料隐私的問題,首先是資料的所有權。資料的隐私,首先資料是我的,你憑什麼拿去用,拿去用有沒有好處,這個好處是不是我應該得到。這才是我們認為下一階段大資料的核心問題。
從剛剛講的大資料和網絡視角下,我們再看區塊鍊是什麼情況。
● 首先,我們認為區塊鍊技術可能具有實作資料确權的潛力。這裡引用一下谷歌董事長斯密特的說法,他認為區塊鍊技術最大的價值,就是實作的資料的稀缺性,也就是不可以篡改和随便拷貝。為什麼稀缺性很重要?因為他是董事長,他關心經濟問題,沒有稀缺性就沒有經濟價值。
● 第二,我們認為區塊鍊技術跟大資料的結合,可能會出現萬億級的商業。
● 第三,區塊鍊技術尚未具有支撐大資料的能力,這是我們下一代資料網要解決的核心難題。
● 第四,區塊鍊對于網絡本身也提出了巨大挑戰。區塊鍊在技術上有三大塊,一個是分布式共識,一個是加密,一個是基于P2P的廣播。P2P的廣播是廣播的一種,是基于點對點實作的。廣播對于網絡來講是很可怕的東西,因為N到N遠遠大于1到1的量。如果有一個網絡可以支撐完美的通信的話,它需要什麼呢?它需要網絡的有效載荷即有效排列組合可以達到N的N次方,而普通網絡隻有達到N的階層數字,這兩個數字差距非常的大。我們認為網絡是區塊鍊規模應用的瓶頸之一,一方面它的商業價值備受關注,另一方面它的規模和實驗,成為關注的焦點。
今天有很多嘉賓在規模方面講得比較多,我集中精力講一下時延的問題。
第一,關系型資料庫系統是非常強悍的,它可以輕松達到千萬次的TPS。現有的系統,不要上千萬次,幾千次都不是那麼容易的事。成熟的系統需求也沒有那麼高,日常也就是2000次。沒有必要在這塊做無謂的追求,這方面我們趕不過關系型資料庫。
第二,交易的時延和帶寬是不一樣的東西。比如我烤匹薩10個小時,同時烤了10塊匹薩,我回頭跟人說,10個小時烤了10個披薩,平均時間1小時。這裡面是有誤導的。時延就是說,到底烤一塊匹薩多久,這對于實際應用很有價值。我們來看看它受到什麼限制呢?一些是我們看得見的,就是代碼裡面可以看到,就是顯示限制,比如交易尺寸、快、平均大小。當像中本聰這樣世界級的設計者,他們設計的時候,是考慮後面的限制。算法現在的研究可以達到100毫秒以下,我們網絡也做到100毫秒以下,1+1等于200毫秒,再給以3倍的安全系數,目标可以到600毫秒。由于廣播的模型,會導緻它的規模也不會很大,是以要解決這個問題,可能要通過一些分集,用聯盟鍊的方法來處理。
下一代的資料網絡,它可以支援高速、海量區塊鍊吞吐。首先在廣域裡面部署一個服務,同時能夠支援毫秒級、亞秒級的交易,能夠實作規模化的區塊鍊應用。為什麼呢?因為我們在廣播裡面增加廣播代理,不要每個人都去廣播,這就是聯盟鍊的觀點。
這一塊清華大學希望我們能夠提供一些區塊鍊設施、平台以及應用作為服務。而且區塊鍊在阿爾山的基礎區塊鍊項目裡面已經做了這樣的場景。這是清華區塊鍊現有的下一代資料網的設計方案及想要實作的目标。
原文釋出時間為:2018-09-12
本文作者:劉運渠
本文來自雲栖社群合作夥伴“
資料派THU”,了解相關資訊可以關注“
”。