2008年,為了探索阿裡巴巴集團大規模存儲解決之道,阿裡雲存儲自研飛天大規模的分布式存儲引擎(盤古 1.0 ),從寫下第一行代碼開始,阿裡雲存儲的進化之路正式開啟。
作為阿裡雲飛天系統裡極其重要的一環,阿裡雲存儲的使命不僅解決了雙 11、雙 12、螞蟻金服等集團大規模業務對存儲系統的超高要求和挑戰,還通過 IDC 到雲上的整體存儲解決方案,打破了資料存儲和流通的邊界,滿足不同企業的多樣化需求,為企業數字化轉型提供資料核心價值。
2018年,經過十年的技術發展和進化,飛天分布式存儲引擎正式更新為盤古 2.0 , 具有軟硬加速、極緻性能、智能運維、海量規模、堅若磐石、廣譜适應等六大特點,為阿裡巴巴集團、阿裡雲智能業務的穩定運作提供強大的技術能力支撐。基于盤古 2.0 ,阿裡雲提供塊存儲、檔案存儲、對象存儲、表格存儲、HDFS 存儲等存儲基礎服務、備份、容災、日志服務、智能存儲、線上/離線遷移、資料湖管理等存儲資料服務和資料密集型行業解決方案。
可以說,阿裡雲存儲已從技術、産品、服務等方面完成了全面進化。本文盤點了過去一年來,阿裡雲存儲的關鍵性産品技術成果。
安全篇阿裡雲始終将資料安全以及使用者隐私作為第一原則。為此,阿裡雲圍繞如何防範“資料不丢失”、“業務不中斷”、“資料不外漏”“資料不丢失”等方面,不斷夯實自身安全能力。
2018年6月,阿裡雲正式對外釋出國内第一家雲原生混合雲備份服務和混合雲容災服務,提供雲上備份與雲容災的保護能力,客戶可實作災備方案的分鐘級部署,有效保護資料并實作業務的連續性。
HDR For Big Data 是國内首個支援混合雲架構下 Hadoop 叢集雙活容災方案,它可以部署于不同資料中心的Hadoop叢集之間實作雙向複制,解決了傳統基于快照+distcp 複制技術環境下恢複點目标( Recovery Point Object ,簡稱 RPO )長達數小時甚至數天級别的難題,實作秒級 RPO 能力。
阿裡雲對象存儲 OSS 的 WORM 特性,允許使用者以“不可篡改、不可删除”的方式進行雲上資料合規存儲,OSS的資料加密功能涵蓋線下本地加密 SDK、雲上KMS 加密并支援使用者以 YBOK 密鑰進行加密,大大提升資料安全與合規能力。
NFS 傳輸加密是檔案存儲 NAS 新推出的基于 NFS 4.0 的傳輸加密功能,使用者可以通過 NAS 提供的工具透明地使用 NFS 傳輸加密功能,充分保證使用者資料在傳輸中的安全性。
穩定性篇2018 年,盤古 2.0 作為阿裡雲智能、螞蟻金服存儲引擎,圓滿通過雙 11 和雙 12 大促的考驗,總資料量達到數百 PB ,穩定性經受住了嚴苛的考驗。并支援了 ESSD 雲盤的公測及并行檔案存儲 CPFS 在國家天文台 FAST 項目的輸出。
過去一年,盤古團隊與阿裡雲各技術、業務線團隊一起攻克多項技術難題,讓諸多新技術規模化落地同時,存儲的整體穩定性得以持續提高。 SPDK QoS 技術的應用,實作資料通路 IO服務品質控制,幫助 ESSD 雲盤有效控制 IO 長尾。
通過軟硬一體設計,端到端的解決了 RDMA 網絡協定上的弱點。同時建立了 RDMA 網絡故障報警機制,有效提高 RDMA 網絡全鍊路問題診斷響應速度,讓阿裡雲存儲成為業内屈指可數的大規模應用 RDMA 技術的存儲廠商。
新一代資料動态遷移算法的研究成功,将資料遷移速度提升 3 倍,大幅縮短硬體故障對資料穩定性的影響時間。 AI 智能運維、故障預測的全面應用使得阿裡雲存儲服務在規模不斷增長的情況下,穩定性進一步提高。
高可用篇阿裡雲國内首家釋出同城 3AZ 部署能力的雲上對象存儲産品,可滿足企業級客戶對于”發生機房級災難事件時資料不丢失,業務不中斷“的需求。相比于建設線下同城容災機房,OSS “同城區域備援”存儲提供 99.95% 的可用性SLA名額、12個9 資料可靠性和一鍵部署雲上同城容災服務能力。結合此前OSS釋出了“跨區域複制”能力,可實作機房、同城、跨地域三級完整的容災服務能力。
阿裡雲将塊存儲在公共雲上多年積累的技術沉澱在 Apsara Block Storage 上,專為企業級客戶量身打造。2018 年 6月,阿裡雲 Apsara Block Storage 産品正式釋出,相容多種類型的計算平台,建構高可用的大規模分布式塊存儲服務平台,可幫助客戶輕松應對雲時代下海量存儲資源的靈活存取需求。
高性能篇2018 年6月,阿裡雲在推出了全新一代的超大規模、超高性能分布式塊存儲産品“ ESSD 雲盤”,将單塊雲盤性能提升到 100 萬 IOPS ,百微秒級别延遲的全新高度,并通過了應用規模超過數十個 PB ,史上最大的高并發 IO 挑戰的 2018 雙 11。
新一代分布式存儲引擎盤古2.0在過去一年中攻克多項技術難題,讓諸多新技術在多個業務場景上得到了大規模驗證。如 RDMA 技術,相比 TCP 延遲降低幾百us,完成了業界最大規模 RDMA 叢集的穩定運作;如 SPDK 技術,削薄了存儲軟體棧,大幅提升了性能,幫助業務及時享受到新的軟硬體相結合的技術紅利;Run-to-completion 線程模型、全棧使用者态 IO、無鎖無線程切換等新架構使得軟體棧 Latency 降低到了us級。
對象存儲 OSS 提供的 Serverless 圖檔處理,首次大規模應用到雙 11 的天貓寶貝主圖處理場景。OSS 基于阿裡雲彈性計算提供的 FPGA 雲服務,采用 HLS (high-level synthesis,高層次綜合)技術自研了 Resize 和 WebP 編碼子產品,部署了業界最大規模 HLS 異構加速叢集,使圖檔處理單機吞吐提升了 6 倍,時延下降10%-20%,做到了和軟體無差異的壓縮效率,優化了使用者體驗。
智能篇基于盤古 2.0 提供的智能日志服務,針對 Ops(DevOps、SecOps、NetOps)常見問題提供智能分析、機器學習等算法幫助洞察問題,提升了開發與管理的效率。
阿裡雲智能存儲以文檔管理、圖檔管理和視訊管理型釋出等功能為雲上文檔、圖檔等資料提供一站式處理、分析、檢索等管控,對不同的業務場景封裝整合完整的處理能力,讓資料快速流轉,高效支援應用,為企業辦公、線上内容管理平台、線上教育、手機相冊等多種類型企業客戶提供文檔處理服務。
在資料智能化處理方面,對象存儲 OSS 支援使用者使用 SQL 查詢檔案的内容,使得資料提取更簡單、更快速。并在多個計算場景不斷優化,與多個開源社群和計算産品深度結合,采用計算存儲分離設計,建構企業級存儲的資料湖生态圈。
表格存儲 TableStore 着力打造多元化的索引功能,SearchIndex 提供多元度條件組合檢索能力,支援時序資料、中繼資料、軌迹資料等豐富應用場景下的資料管理; GlobalIndex 為使用者提供資料的多元度組合、重排序等功能。借助多元索引能力,使用者可快速查詢、分析資料,提升資料的使用價值。