天天看點

【資料蔣堂】1T資料到底有多大?

一英裡不是個很長的距離,一立方英裡相對于地球也不會讓人覺得是個很大的空間。然後我說,這個空間内能裝下全世界所有人,你會不會覺到很驚訝?不過這話不是我說的,是美國作家房龍在一本書裡寫的。

業内有個著名的資料倉庫産品,叫Teradata,20多年前起這個名字,顯然是想給人能處理海量資料的感覺。可現在,論使用者還是廠商,談論資料量時都常常以T為機關了,動不動就有幾十上百T甚至PB級的資料。似乎T不是個多大的數,多幾個幾十個T也沒什麼大不了的。

其實T有點像上面說的立方英裡,是個挺大的數。很多人對它沒有多深的感性認識,我們要換個角度來看1T資料意味着什麼。

先從空間上看

用于分析計算的資料仍然以結構化資料為主。結構化資料中占據空間最大的是不斷增長的交易類記錄,這種資料每條并不大,大概隻有幾十到100位元組,比如銀行交易隻要記下帳号、日期、金額;電信的通話記錄也隻是通話号碼、時刻、時長等。就按100位元組算,也就是0.1K,那麼1T空間就可以放下10G行記錄,100億條!

這是什麼概念呢?一年大概是3000多萬秒,如果用一年時間來積累1T資料,那意味着每秒要産生300多筆記錄,24小時不停息!

這個數也不算大,像中國這樣的大國,電信營運商、全國級銀行以及大型互聯公司都不難有這種規模的業務量。但對于一個城市級别甚至有些省級的機構就是個不小的數了,比如稅務部門采集的企業交稅資訊、連鎖超市的商品購買資料、城市商業銀行的交易記錄等,要達到300筆/秒并不容易,何況很多機構隻有白天或工作日才能産生資料。而且這還隻是1T,要搞到幾十上百T,那就得讓業務量再上一兩個數量級才行。

簡單說有多少T資料是沒什麼感覺的,換算成每秒對應的業務量後,才知道是不是靠譜。大資料分析計算産品的技術方案和資料量相關性非常強,正确估算自己的資料量對于大資料平台的建設是至關重要的。

如果用來存儲音頻視訊這種非結構化資料, 或者僅僅用于備份原始憑據,那1T空間就存不了多少東西了,但這種資料一般也沒什麼要分析計算的需求,隻是存儲和檢索,那不需要什麼大資料計算平台,隻要有個網絡檔案系統就行了,這成本就低多了。

再從時間上看

假設有1T資料,那麼要多少時間才能處理一遍?有些廠商宣稱能在數秒内處理TB級資料,使用者經常也這樣期望,這可能嗎?

機械硬碟在作業系統下的讀取資料大概是150M/秒(不能看硬碟廠商那個名額,根本達不到),固态硬碟快些,能翻個倍。我們就算300M/秒,那麼1T資料隻是讀取不做任何運算也需要3000秒以上,接近一個小時!那怎麼可能數秒内處理1T資料呢?很簡單,增加硬碟,如果有1000塊硬碟,那就可以在3秒左右讀出1T資料了。

這還是比較理想的估算。實際上資料不大可能存放着那麼整齊(硬碟不連續讀取時性能下降嚴重),叢集(1000塊硬碟顯然不會在一台機器上)還有網絡延遲,有些運算可能還有回寫動作(大分組和排序等),秒級通路常常還會有并發需求,這些因素綜合起來,再慢幾倍也是正常的。

現在我們知道了,1T資料意味着幾個小時,或者上千塊硬碟。而且還是前面的話,這隻算了1T,可想而知幾十上百T會是什麼概念了。

有人說,硬碟太慢了,我們改用記憶體。

記憶體是比硬碟快得多,而且還适合并行計算。不過大記憶體的機器并不便宜(成本不是線性增長的),而且更糟糕的是,記憶體使用率經常很低。比如許多計算體系都是基于Java平台的,如果不做特别的壓縮優化的話,JVM的記憶體使用率隻有20%的樣子,也就是硬碟上1T資料需要5T記憶體才能加載進來,這得裝多少機器,花多少錢?

我們對1T有了上面這些感性認識後,聽到多少多少T的說法時,就可以随時腦補出交易、節點數、成本等資訊。做平台規劃和産品選擇時,就不容易被忽悠了。Teradata這個名字,今天也還不算過時的。

專欄作者簡介

蔣步星,潤乾軟體創始人、首席科學家

清華大學計算機碩士,著有《非線性報表模型原理》等,1989年,中國首個國際奧林匹克數學競賽團體冠軍成員,個人金牌;2000年,創立潤乾公司;2004年,首次在潤乾報表中提出非線性報表模型,完美解決了中國式複雜報表制表難題,目前該模型已經成為報表行業的标準;2014年,經過7年開發,潤乾軟體釋出不依賴關系代數模型的計算引擎——集算器,有效地提高了複雜結構化大資料計算的開發和運算效率;2015年,潤乾軟體被福布斯中文網站評為“2015福布斯中國非上市潛力企業100強”;2016年,榮獲中國電子資訊産業發展研究院評選的“2016年中國軟體和資訊服務業十大領軍人物”;2017年, 自主創新研發新一代的資料倉庫、雲資料庫等産品即将面世。

資料蔣堂

《資料蔣堂》的作者蔣步星,從事資訊系統建設和資料處理長達20多年的時間。他豐富的工程經驗與深厚的理論功底互相融合、創新思想與傳統觀念的互相碰撞,虛拟與現實的互相交織,産生出了一篇篇的瀝血之作。此連載的内容涉及從資料呈現、采集到加工計算再到存儲以及挖掘等各個方面。大可觀資料世界之遠景、小可看技術疑難之細節。針對資料領域一些技術難點,站在研發人員的角度從淺入深,進行全方位、360度無死角深度剖析;對于一些業内觀點,站在技術人員角度闡述自己的思考和了解。蔣步星還會對大資料的發展,站在業内專家角度給予預測和推斷。靜下心來認真研讀你會發現,《資料蔣堂》的文章,有的會讓使用者避免重複前人走過的彎路,有的會讓攻城獅面對紮心的難題茅塞頓開,有的會為初入行業的讀者提供一把開啟資料世界的鑰匙,有的甚至會讓業内專家大跌眼鏡,産生思想交鋒。

原文釋出時間為:2017-05-07 

本文作者:蔣步星

本文來自雲栖社群合作夥伴“資料派THU”,了解相關資訊可以關注“資料派THU”微信公衆号

繼續閱讀