本節書摘來異步社群《資訊存儲與管理(第二版):數字資訊的存儲、管理和保護》一書中的第1章,第1.1節,作者:【新加坡】g.somasundaram ,【美】alok shrivastava,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
資訊存儲與管理(第二版):數字資訊的存儲、管理和保護
商家通過分析和處理資料來獲得對它們每天操作相關的資訊,而存儲就是允許使用者持續存取數字資料的倉庫。
資料就是原始事實的集合,從中可以得出一些結論。手寫書信、印刷書籍、家庭照片、已簽字的抵押貸款檔案、銀行賬冊和機票等都包含了資料。
在計算機發明之前,資料的産生和共享僅限于很少的形式,例如,紙和膠卷。今天,相同的資料可以轉換成更多便利的格式,如一個郵件資訊、一本電子書、一張數字圖像或者一部數字電影。這些資料都可以用計算機生成并存儲為0和1的字串,如圖1-1所示。這種形式的資料稱為數字資料,經過計算機處理之後可以被使用者使用。
随着計算機和通信技術的發展,産生資料和共享資料的速率也呈指數增長。下面是一些促進數字資料增長的因素。
資料處理能力的提升:當今計算機在處理能力和存儲能力上有了顯著提高。這促成了把不同類型的内容和媒體從傳統方式轉換為數字格式。
數字存儲的低成本:技術的進步和存儲成本的降低提供了低成本的解決方案,也促進了價格更低廉的儲存設備的開發。這種成本的減少提升了資料産生和存儲的增長速度。
可負擔的和更快的通信技術:共享數字資料比傳統方式更加快捷。一封手寫的書信也許需要一周才能到達目的地,而一封電子郵件隻需幾秒鐘就能抵達收件人。
無處不在的應用和智能裝置:智能手機、平闆電腦、新型電子裝置和智能應用貢獻了大量的數字内容。
目前,建立、收集和存儲各種類型的資料變得廉價且更加容易。伴随着個人和商業需求的增長,加速了資料的産生,這種現象被稱為資料爆炸。個人和商業機構對“資料爆炸”有不同程度的貢獻。
随着時間的推移,資料的重要性和價值都會改變。大部分産生的資料都隻在短期内重要,時間一長就不那麼重要了。這一特點影響着資料存儲解決方案的選擇。通常最近産生的且使用率較高的資料存儲在高速但成本較高的裝置上。過一段時間之後,這些資料可以被轉移到速度較慢、成本低但是可靠的裝置上。
研究和商業資料執行個體:
下面是一些研究和商業資料執行個體。
客戶資料:關系到公司客戶的資料,如訂單資訊、發貨位址以及購買曆史清單。
生産資料:包括産品不同方面的資料,如庫存、描述、價格、可用量和銷售量。
醫療資料:涉及醫療護理的資料,如病人曆史記錄、放射圖像、藥物詳細資訊以及其他診斷治療和保險資訊。
地震學資料:地震學是研究地震的學科。需要收集資料并處理,以擷取資訊來判斷地震的位置和震級。
商業應用會産生大量的資料,然後從中提取有意義的資訊來獲得經濟利益。是以,商業應用需要維護資料并保證其在較長一段時間内可用。更進一步,不同資料的重要程度不同,需要具體的處理。例如,法律和規章制度要求銀行必須保證客戶賬戶資訊的準确性和安全性。一些商業應用需要處理上百萬客戶的資料,并保證它們在很長一段時間内是完整的和安全的,這就需要高性能大容量且具有增強安全性能的儲存設備。
根據存儲和管理方式,可以将資料劃分為結構化資料和非結構化資料(如圖1-3所示)。結構化資料按行和列這種嚴格的格式組織,以便使用者能夠高效地檢索和處理。結構化資料通常用資料庫管理系統存儲。
如果資料無法按行和列進行存儲,那麼該資料就是非結構化資料。這種資料比較難于被商業應用檢索和查詢。例如,客戶聯系資訊可能會存儲成不同的格式,如便簽、郵件資訊、商業名片,或者數字格式的檔案(doc檔案、txt文本檔案和pdf檔案)。由于它的非結構化特征,使用傳統的客戶關系管理應用來擷取非結構化資料比較困難。新建立資料絕大多數都是非結構化資料。如何應用新架構、新技術、新方法和新技能來存儲、管理和分析各種來源的非結構化資料,并從中擷取價值,是業界面臨的挑戰。
大資料是一個新提出的且在不斷演化的概念,是指資料量超出了正常軟體工具在可接受的時間内的抓取、存儲、管理和處理能力。它既包括結構化資料,也包括非結構化資料。其資料的來源多種多樣,可以來自商務應用處理、網頁、視訊、圖像和社交媒體等。這些資料集通常需要實時地抓取和更新,以用于分析、預測性模組化和決策等用途。
從大資料中吸取價值存在很大的機遇。大資料的生态系統(見圖1-3)由以下元素組成:
1.從多個位置收集資料,并從收集的資料中生成資料(中繼資料)的裝置。
2.資料收集器,收集來自裝置和使用者的資料。
3.資料聚合工具,從收集的資料中吸取有意義的資訊。
4.資料使用者和買家,是指在資料價值鍊中從他人收集或聚合的資料中獲益的人群。
大資料的資料量、多樣性、變化範圍和複雜性超出了傳統的it裝置和資料處理工具及方法的處理能力。對大資料進行實時分析需要新的方法、架構和工具,以提供高性能、大規模并行處理(mpp)資料平台和對資料集的複雜分析。
資料科學是一門新興的學科,商業組織可以利用這門學科從大資料中擷取商業價值。資料科學是多門學科(統計學、數學、資料可視化和計算機科學)的綜合。資料科學家的職責是設計各種進階算法對海量資料進行分析,以尋找新的價值點,為更多的決策提供資料支援。
很多領域和市場已經開始利用資料科學,從大資料的分析中獲益。其中包括醫學與科學研究、醫療醫護、公共管理、欺詐檢測、社交媒體、銀行、保險公司,以及其他以數字資訊為中心的實體。
不管是結構化資料還是非結構化資料,除非其被展現成一種有意義的形式,否則都不能滿足任何個人的或是商業的目的。資訊就是從資料中提取出來的智慧和知識。
商業應用分析原始資料以找出有意義的趨勢。基于這些趨勢,公司可以制定和修改其政策。例如,隻需通過分析客戶的購買模式和維護客戶的物品清單,零售商就可以辨認出客戶喜歡的樣式和品牌的名字。
有效的資料分析不僅給現有的商業應用帶來利益,而且通過采用創造性的方式來使用資料還能創造出潛在的、新的商業機會。
由個人和商業應用産生的資料必須存儲起來,以便在進一步處理時可以進行通路。在一個計算環境下,用來存儲資料的裝置稱為儲存設備(storage device),或簡稱存儲(storage)。儲存設備的類型取決于資料類型以及資料建立和使用的頻率。像手機或數位相機中的記憶體、dvd、cd-rom和個人電腦中的硬碟等都是儲存設備的執行個體。
商業應用中通常使用的幾種存儲媒體,包括内部硬碟、外部磁盤陣列和錄音帶。