【資料蔣堂】1T資料到底有多大？

一英裡不是個很長的距離，一立方英裡相對于地球也不會讓人覺得是個很大的空間。然後我說，這個空間内能裝下全世界所有人，你會不會覺到很驚訝？不過這話不是我說的，是美國作家房龍在一本書裡寫的。

業内有個著名的資料倉庫産品，叫Teradata，20多年前起這個名字，顯然是想給人能處理海量資料的感覺。可現在，論使用者還是廠商，談論資料量時都常常以T為機關了，動不動就有幾十上百T甚至PB級的資料。似乎T不是個多大的數，多幾個幾十個T也沒什麼大不了的。

其實T有點像上面說的立方英裡，是個挺大的數。很多人對它沒有多深的感性認識，我們要換個角度來看1T資料意味着什麼。

先從空間上看

用于分析計算的資料仍然以結構化資料為主。結構化資料中占據空間最大的是不斷增長的交易類記錄，這種資料每條并不大，大概隻有幾十到100位元組，比如銀行交易隻要記下帳号、日期、金額；電信的通話記錄也隻是通話号碼、時刻、時長等。就按100位元組算，也就是0.1K，那麼1T空間就可以放下10G行記錄，100億條！

這是什麼概念呢？一年大概是3000多萬秒，如果用一年時間來積累1T資料，那意味着每秒要産生300多筆記錄，24小時不停息！

這個數也不算大，像中國這樣的大國，電信營運商、全國級銀行以及大型互聯公司都不難有這種規模的業務量。但對于一個城市級别甚至有些省級的機構就是個不小的數了，比如稅務部門采集的企業交稅資訊、連鎖超市的商品購買資料、城市商業銀行的交易記錄等，要達到300筆/秒并不容易，何況很多機構隻有白天或工作日才能産生資料。而且這還隻是1T，要搞到幾十上百T，那就得讓業務量再上一兩個數量級才行。

簡單說有多少T資料是沒什麼感覺的，換算成每秒對應的業務量後，才知道是不是靠譜。大資料分析計算産品的技術方案和資料量相關性非常強，正确估算自己的資料量對于大資料平台的建設是至關重要的。

如果用來存儲音頻視訊這種非結構化資料，或者僅僅用于備份原始憑據，那1T空間就存不了多少東西了，但這種資料一般也沒什麼要分析計算的需求，隻是存儲和檢索，那不需要什麼大資料計算平台，隻要有個網絡檔案系統就行了，這成本就低多了。

再從時間上看

假設有1T資料，那麼要多少時間才能處理一遍？有些廠商宣稱能在數秒内處理TB級資料，使用者經常也這樣期望，這可能嗎？

機械硬碟在作業系統下的讀取資料大概是150M/秒（不能看硬碟廠商那個名額，根本達不到），固态硬碟快些，能翻個倍。我們就算300M/秒，那麼1T資料隻是讀取不做任何運算也需要3000秒以上，接近一個小時！那怎麼可能數秒内處理1T資料呢？很簡單，增加硬碟，如果有1000塊硬碟，那就可以在3秒左右讀出1T資料了。

這還是比較理想的估算。實際上資料不大可能存放着那麼整齊（硬碟不連續讀取時性能下降嚴重），叢集（1000塊硬碟顯然不會在一台機器上）還有網絡延遲，有些運算可能還有回寫動作（大分組和排序等），秒級通路常常還會有并發需求，這些因素綜合起來，再慢幾倍也是正常的。

現在我們知道了，1T資料意味着幾個小時，或者上千塊硬碟。而且還是前面的話，這隻算了1T，可想而知幾十上百T會是什麼概念了。

有人說，硬碟太慢了，我們改用記憶體。

記憶體是比硬碟快得多，而且還适合并行計算。不過大記憶體的機器并不便宜（成本不是線性增長的），而且更糟糕的是，記憶體使用率經常很低。比如許多計算體系都是基于Java平台的，如果不做特别的壓縮優化的話，JVM的記憶體使用率隻有20%的樣子，也就是硬碟上1T資料需要5T記憶體才能加載進來，這得裝多少機器，花多少錢？

我們對1T有了上面這些感性認識後，聽到多少多少T的說法時，就可以随時腦補出交易、節點數、成本等資訊。做平台規劃和産品選擇時，就不容易被忽悠了。Teradata這個名字，今天也還不算過時的。

專欄作者簡介

蔣步星，潤乾軟體創始人、首席科學家

清華大學計算機碩士，著有《非線性報表模型原理》等，1989年，中國首個國際奧林匹克數學競賽團體冠軍成員，個人金牌；2000年，創立潤乾公司；2004年，首次在潤乾報表中提出非線性報表模型，完美解決了中國式複雜報表制表難題，目前該模型已經成為報表行業的标準；2014年，經過7年開發，潤乾軟體釋出不依賴關系代數模型的計算引擎——集算器，有效地提高了複雜結構化大資料計算的開發和運算效率；2015年，潤乾軟體被福布斯中文網站評為“2015福布斯中國非上市潛力企業100強”；2016年，榮獲中國電子資訊産業發展研究院評選的“2016年中國軟體和資訊服務業十大領軍人物”；2017年, 自主創新研發新一代的資料倉庫、雲資料庫等産品即将面世。

資料蔣堂

《資料蔣堂》的作者蔣步星，從事資訊系統建設和資料處理長達20多年的時間。他豐富的工程經驗與深厚的理論功底互相融合、創新思想與傳統觀念的互相碰撞，虛拟與現實的互相交織，産生出了一篇篇的瀝血之作。此連載的内容涉及從資料呈現、采集到加工計算再到存儲以及挖掘等各個方面。大可觀資料世界之遠景、小可看技術疑難之細節。針對資料領域一些技術難點，站在研發人員的角度從淺入深，進行全方位、360度無死角深度剖析；對于一些業内觀點，站在技術人員角度闡述自己的思考和了解。蔣步星還會對大資料的發展，站在業内專家角度給予預測和推斷。靜下心來認真研讀你會發現，《資料蔣堂》的文章，有的會讓使用者避免重複前人走過的彎路，有的會讓攻城獅面對紮心的難題茅塞頓開，有的會為初入行業的讀者提供一把開啟資料世界的鑰匙，有的甚至會讓業内專家大跌眼鏡，産生思想交鋒。

原文釋出時間為：2017-05-07

本文作者：蔣步星

本文來自雲栖社群合作夥伴“資料派THU”，了解相關資訊可以關注“資料派THU”微信公衆号

【資料蔣堂】1T資料到底有多大？

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark