天天看點

專訪巨杉資料庫王濤:企業級分布式資料庫如何快速落地大資料

近年來,随着資料量的高速增長,分布式資料庫技術得到了快速的發展,傳統的關系型資料庫開始從集中式模型向分布式架構發展,基于關系型的分布式資料庫在保留傳統資料庫的資料模型和基本特征下,從集中式存儲走向分布式存儲,從集中式計算走向分布式計算。

專訪巨杉資料庫王濤:企業級分布式資料庫如何快速落地大資料

巨杉資料庫 王濤

SequoiaDB巨杉資料庫,專注新一代大資料基礎架構研發,是國内領先的新一代分布式資料庫廠商。其産品SequoiaDB巨杉資料庫是一款支援SQL、高并發、實時性、分布式、可擴充、靈活存儲的操作型NewSQL資料庫。在上周的2016BDTC大資料技術大會上,巨杉資料庫聯合創始人&CTO王濤做了”NewSQL資料庫技術與企業級應用”的專題技術分享。在會後,王濤也接受CSDN專訪,就巨杉的最新進展和最新的産品亮點以及企業對大資料需求變化做深入溝通。

巨杉資料庫

訪談一開始,王濤就巨杉過去一年在資料庫領域取得的新進展做詳細介紹,王濤表示,過去一年以來巨杉取得了許多的成績,這離不開廣大使用者和愛好者們的關注和支援,總結來說主要分為以下四個方面:

  • 首先,巨杉資料庫 2.0正式釋出,巨杉資料庫正式進入”2.0時代”,特别在企業級的功能上有了許多提升;
  • 其次,是巨杉獲得B輪融資,在資本寒冬下得到DCM的千萬美元B輪融資,是目前國内新一代分布式資料庫領域最大一筆投融資。
  • 再次,巨杉的企業級使用者持續增長,深耕金融、政府、電信等行業,交通、制造、醫療等新興行業大資料嶄露頭角;
  • 最後,巨杉獲得業界的認可,成為2016年唯一入選矽谷”大資料生态地形圖”的中國廠商,并且連續兩年獲得《紅鲱魚》”全球創新100強”。

作為巨杉軟體的聯合創始人兼CTO,王濤始終關注着前沿的技術,在資料庫方面,新一代分布式資料庫已經真正規模性進入到了企業級應用,是以新技術如何在企業級領域中擴充其使用場景與範圍,是巨杉今年最為關注的重點。同時,從技術趨勢上來看,Spark在各個行業的普及應用已經證明了大資料的實用性和必要性,巨杉接下來要做的就是挖掘出更多的應用場景。此外,對于機器學習人工智能等與大資料結合緊密的新技術趨勢也是巨杉軟體關注的方向之一。

SequoiaDB 2.0亮點解析

在今年,巨杉資料庫正式進入了”2.0時代”,SequoiaDB 2.0為使用者提供高并發實時計算、高吞吐量批處理分析、以及線上流處理計算等一系列企業級解決方案。這些新特性,符合如今各個主要行業對于大資料技術的需求,包括海量資料存儲、企業應用的相容易用、存儲計算的整合與優化、以及多資料源類型資料的統一存儲等,幫助使用者快速進行跨系統資料的融和、提煉和再加工,加速提升企業的資料價值。相比”1.0時代”巨杉資料庫,其亮點可歸納為以下三點:

其一,标準SQL支援:支援标準SQL2003與事務機制,支援JDBC、ODBC、Hibernate、Spring等通用架構,完美相容現有業務系統的無縫遷移。SequoiaDB 2.0在完全支援标準SQL之後,将能夠适應幾乎所有的企業級大資料需求,保證最低限度的遷移成本、學習成本,真正實作無縫對接。

其二,雙存儲引擎: 雙引擎即為記錄存儲和塊存儲,SequoiaDB 2.0提供的對象存儲引擎包含了完整ECM企業内容管了解決方案,包括檔案的批次管理、版本管理、流程管理等一系列内容管理核心功能。

其三,記憶體計算引擎內建:SequoiaDB 2.0通過深度內建最新的Spark 2.0記憶體計算架構,實作了批處理分析、流處理等貼近應用的功能。存儲層和計算層兩層分離的架構、技術互補,是矽谷大資料新架構的主流,将分布式計算與分布式存儲的能力分别發揮到了極緻。

王濤表示,巨杉的”2.0時代”更專注企業級的資料庫技術,幫助企業大資料快速落地,而這些新的特性也在市場上得到了衆多客戶的認可。

雙引擎架構對行業客戶應用的改變

SequoiaDB是目前唯一一款原生內建行存儲與塊存儲雙引擎的分布式資料庫。除了此前的JSON存儲引擎以外,為了提高非結構化檔案的讀寫性能,SequoiaDB核心引擎提供了分布式塊存儲模式,可以将非結構化大檔案按照固定大小的資料塊進行切分并存放于不同分區。

SequoiaDB提供的塊存儲機制可以存放近乎無限數量的對象檔案,并且不會由于中繼資料堆積而造成性能下降。同時,由于資料塊被散列分布到所有資料節點,整個系統的吞吐量随叢集磁盤數量的增加近乎線性提升。最後,SequoiaDB提供原生的内容管理接口,通過REST通路方式支援批次管理、版本管理、流程管理等一系列基本CM特性。

王濤認為雙引擎的技術使得巨杉資料庫能夠成為傳統ECM/影像系統的強有力替代。

典型案例解析

王濤表示,巨杉的客戶主要是在金融、政府、電信以及網際網路等行業,特别是今年以來,在交通、制造、醫療等新興行業嶄露頭角。巨杉目前已擁有的客戶包括多家世界五百強企業(如中國銀行、民生銀行、廣發銀行、中國移動、中國電信等),各級政府客戶(國稅總局、廣州市政府等)和包括途牛網在内的多家知名網際網路科技公司。

典型客戶應用場景包括集中在對曆史資料的全量線上應用,以及對非結構化資料應用這兩大領域。

其中,曆史資料全量線上應用一個典型的例子。在這一場景中巨杉的NewSQL資料庫替代了傳統的資料架構中的ODS(貼源層),作為全量曆史資料的存儲層。一方面為DW資料倉庫部分進行了”瘦身”,另一方面也将能實作對海量的曆史資料的實時操作,包括實時查詢和高性能讀寫等。

除了曆史全量資料意外,在”雙引擎”的部分,巨杉資料庫的塊存儲引擎還能處理海量的非結構化資料的存儲,包括圖像、音視訊等資料的存儲,成為傳統企業内容管理(ECM)的有力替代。

客戶需求的新變化

随着企業資料量的不斷增長,對資料庫的需求也有了新的變化,王濤認為主要有三方面表現:

首先,首先從業務場景上來看,大資料業務目前主要分為分析類和互動類,巨杉資料庫大的發展方向是以實時互動類為主。在互動類這塊,NewSQL是Hadoop架構的有力補充,也是目前企業級大資料應用中落地和見效最快的部分。如近線資料管理和查詢、非結構化資料和影像資料管理、使用者畫像、資料湖平台等場景,都非常适合用巨杉資料庫這樣的新一代分布式資料庫。

其次,大家都在談NoSQL和NewSQL。從傳統來看,NoSQL本身針對的是從網際網路起家的一些玩家,這些玩家可能對于SQL和其他的企業級的功能并不是很重視。但是,未來随着新一代分布式資料庫在各個行業的不斷應用和普及,NoSQL和NewSQL這兩者肯定是逐漸統一的過程,NoSQL資料庫會不斷注重企業級功能如SQL支援的提升。

最後,大資料環境下對于性能和穩定性要求更為苛刻,在企業級的大資料應用中,使用者不僅會對産品本身的技術要求更高,同時也需要原廠廠商能夠做到100%了解自己的産品,這樣才能應對不斷變化的大資料需求。

SequoiaDB巨杉資料庫在這些新的需求中将作為Hadoop架構的有力補充,服務于海量資料的實時互動,也就是Lambda架構中的 Speed Layer的實時互動部分。

關于生态及未來

關于技術生态的建設方面,巨杉資料庫目前與幾乎所有的主流大資料技術架構都實作了對接,也成為Spark認證的全球10餘家發行商之一。在技術生态上,巨杉在2016年入選矽谷”大資料生态地形圖”也說明了整個業界對于巨杉的認可。

此外,對于開發者技術生态,自2014年SequoiaDB作為商業化産品産品開源之後,巨杉開始建立自己的産品開源社群,主要是為了能夠聚攏使用者,發揮”發燒友”們的熱情,與此同時也可以幫助我們的産品快速成長,至今為止巨杉的社群使用者量已經破萬。

巨杉的所有同僚都會積極參與社群互動中,與廣大開發者交流,同時我們也會組織線上線下的活動。當然也會和CSDN這樣的技術社群多多合作,争取為我們的使用者以及廣大開發者帶來更多資料庫相關的知識。

展望巨杉未來,王濤認為從資料庫的使用場景上來看,我們會進一步提高SQL引擎的能力和性能,對于非結構化資料應用的領域也是關注的重點之一。此外,在技術生态上巨杉也會加強合作,建構好真正屬于中國自己的大資料生态。