天天看點

一款雲遷移産品的成長史關于作者關于萬博智雲結緣雲遷移挫折中前行從項目中來,在項目中成長從一朵雲到一片雲打造極緻的使用者體驗在巨人肩膀上一起成長結語

關于作者

孫琦,萬博智雲CTO(萬國資料(NASDAQ:GDS)合資子公司),阿裡雲解決方案領域MVP,Ceph中國社群聯合創始人,AWS Certified DevOps Professional。曾先後就職億陽信通、摩托羅拉、瞬聯軟體等國内外知名企業。2013年開始創業,從事私有雲領域研發工作,2016年帶領團隊開發雲原生遷移産品HyperMotion,該産品在江蘇農信、國家電網、海通證券等諸多項目得到廣泛應用。2018年成功組織Ceph全球首次峰會,并幫助多家國内知名企業加入Linux Foundation旗下的Ceph基金會。

關于萬博智雲

萬博智雲資訊科技(上海)有限公司成立于上海,是國内領先的雲技術和數字化架構服務商。萬博智雲專注于為企業提供中立/專業的雲咨詢、雲産品、雲服務;緻力成為企業 IT營運、數字化發展可信耐的雲服務商。公司秉持以産品驅動服務,以科技提升企業商業價值的理念,持續提供豐富的雲化産品、解決方案、專業咨詢服務,并聯合生态體系助力企業在數字化時代全速發展。

萬博智雲核心研發團隊組建于2013年5月,2013年到2016年期間團隊緻力于開發基于OpenStack私有雲産品,2016年後團隊轉型全力開發雲市場細分領域産品——雲遷移。2017年完成了沭陽農商行私有雲平台建設及業務系統上雲項目,該項目獲得銀監會四類科技成果獎,第二屆優秀雲計算開源案例二等獎;2018年完成江蘇農信省聯社專有雲平台建設,同時利用雲遷移産品完成1200多套業務系統批量上雲,該項目獲得銀監會二類科技成果獎,第三屆優秀雲計算開源案例二等獎;同年,完成國家電網27個省近20000台VMware虛拟機批量上雲遷移;2019年完成海通證券雲管平台與雲遷移産品整合,該項目也是國内首個将雲管平台整合到雲管平台提供自助式遷移服務的項目;2020年完成前海股權VMware虛拟機批量遷移至阿裡雲項目。

結緣雲遷移

2011年開始,我一直從事OpenStack在企業私有雲應用的研發工作。從2011年一直到2018年,是開源社群最為活躍的時間段,各個公司将自己的主要精力全部投入到OpenStack各個子產品的優化中。當時建設私有雲平台所提供的服務往往是全方位的,從系統內建、安裝實施再到後面的運作維護和定制化開發,基本上就是一整套全棧式解決方案,甚至有時候雲平台之上的業務系統出問題,客戶也會來找你。這對于任何尚處于初創型規模的OpenStack公司往往是個巨大的挑戰。

2016年的時候,我們為一家農商行客戶建設私有雲,經過反複的前期驗證,最終在2016年底拿下了該項目。當時除了建設雲平台的需求外,還有一項作為驗收标準的需求是将使用者原有運作在各種實體機的業務系統平穩的遷移到新的雲平台上,遷移過程不能對現有業務産生任何影響。最後還要将舊的硬體進行必要更新後,重新加入到新的雲平台。

回想起當時雲平台的建設過程,架構上并不複雜,就是一個典型的OpenStack使用硬體存儲再加上VLAN的簡單模式。在實際的項目實施中,從硬體到貨到上架安裝,再到雲平台部署完成,前前後後的時間大約在三周左右。但是由于使用者對于熱遷移和資源回收的需求,整個項目實際耗時竟然長達半年之久。由于客戶所處的位置不直通高鐵,我們的工程師從北京出發,要不就是坐一夜的綠皮火車,要不就先高鐵到徐州再轉長途車的方式。無論哪種方式,路上的時間至少要8個小時以上。從方案驗證到最終實施完畢,團隊内全體成員總共出差次數超過50次以上,最終的實施成本極高。當我們嘗試複盤整個過程時,耗時最久的其實就是解決各種遷移過程中産生的問題。

挫折中前行

這個客戶的業務系統屬于典型的老舊型業務系統,運作在實體機加上硬體存儲陣列上,有少量的虛拟化環境,作業系統也是五花八門,最多的是SUSE 11,還有Windows 2003,CentOS等,資料庫有DB2,Oracle,還有少量的MySQL。

由于是銀行系統,是以對于業務連續性有非常強烈的訴求,在遷移上對我們提出了以下幾點要求:

第一,風險控制。在任何行業中,穩定、可靠是當仁不讓的第一原則,對于關乎民生的金融行業更是如此。是以在實際雲平台建設過程中,原有業務系統上雲時往往受到的阻力最大。究其原因就是在上雲過程中沒有一套完整的、科學的方法論及工具讓使用者打消對上雲的顧慮。是以在向雲遷移過程中,系統必須是可驗證、可回退的。在正式切換到雲平台之前,需要讓業務系統在雲平台之上得到充分的驗證;在切換到雲平台後,如果一旦發生失敗,要馬上能夠回退到原有系統,繼續提供服務。保障在雲遷移過程中,風險降到最低。

第二、保障業務連續性。農商行不同于傳統的四大行或者城商行,在IT建設上往往有很大的自主權,除了核心交易系統外,其他的業務系統均運作在本地系統上,是以對本地運維能力提出比較高的要求。在遷移過程中,本地業務系統的連續性非常重要,一旦中斷銀行就無法開門做生意了。同時,根據銀監會印發的相關規定:在業務服務時段導緻業務無法正常開展達半個小時(含)以上,屬于重大營運中斷事件。是以基本上遷移的切換時間視窗,隻能在晚間進行,但是晚上銀行又會有資料下發、跑批等程式的運作,是以留給遷移的時間視窗非常有限,是以必須采用一種近似于熱遷移的效果來滿足客戶的需求。

第三,減少人為幹預,保障遷移的可靠性。由于很多系統屬于服務廠商開發,部分應用時間久遠,甚至很多服務廠商已經不存在了,是以遷移過程中盡量減少對應用廠商的依賴很關鍵,比如重裝、重新配置都會導緻應用無法運作。同時,在遷移過程中,由于步驟非常複雜,人為操作過多非常容易産生錯誤。

在這個過程中,我們走了非常多的彎路,比如從最早采用冷遷移方式的Clonezilla,耗時24個小時才能遷移完一台主機;再比如調研了各種開源的p2v和v2v工具,沒有一個好用的;再比如為了解決UEFI啟動的問題,修改nova代碼,但是加載後發現一台伺服器啟動過程黑屏了半個小時之久,為了這一個系統我們往返于北京和客戶多達五次。這些困難促使我們不得不停下來思考,為什麼一個看似簡單的遷移,最終卻成為影響項目進度和成本的關鍵因素呢?

從項目中來,在項目中成長

為了解決在項目中遇到的問題,我們嘗試了各種手段,最終我們發現災備領域的資料讀取技術加上雲原生的方式是最佳的組合方案。使用災備的塊級别差量複制技術能夠充分保障業務連續性,而最大程度利用雲平台原生接口和資源能夠實作”兩點之間直線最短“的效果,保障遷移的可靠性,大幅度降低人為介入而帶來的不确定性,最後二者疊加的效果最終滿足了風險可控的終極目标。

通過2016和2017年近兩年的磨練,一個面向OpenStack的熱遷移産品具備了初步産品雛形。在緊接着到來的2018年我們迎來了又一次大考,這一次我們面對着是江蘇省農信的專有雲平台的大規模遷移,我們需要将該省内全部62家二級法人的業務系統遷移上雲。很快我們中标的興奮就淹沒在新的困難面前。在之前的項目中,我們的所有遷移行為都是在本地資料中心完成的,至少所有的網絡基本都是千兆的。但是在這個項目中,省端和各個二級法人之間的連接配接變成了以10Mbps的專線,并且這還是最好的情況,還有更糟糕的隻有2Mbps。省端與二級法人的專線連接配接主要用于省端的資料下發,是以用于遷移的資料傳輸隻能在特定時間段進行,同時不能将全部的帶寬占滿,以防影響業務。但是,每個二級法人的使用者資料量很大,大約在30TB - 50TB左右,如果完全依賴網絡傳輸,理論上需要傳上一年多的時間。是以完全依賴于網絡傳輸是不可能的,我們需要的是一種硬體加網絡的組合方案,由硬體儲存全量資料,通過運輸方式到省端,将全量資料切換至雲端後,再通過網絡傳輸增量,這樣形成的效果仍然是熱遷移,但是遷移的速度明顯提高。

在解決了大規模資料傳輸後,我們緊接着遇到的問題就是先遷哪個,後遷哪個?我們都知道應用系統是存在一定的依賴關系的,是以在遷移前必須要梳理清楚應用系統的拓撲結構,同時還要對遷移後的網絡、應用配置等變更做出預先分析,保障萬無一失。這個過程其實就是在衆多遷移方法論中提到的調研分析階段。在這個過程中,我們也在實踐中積累了自己的遷移調研方法和實施方案,對我們後來的項目起到了很大的幫助作用。同時我們也意識到,遷移絕對不是一個工具就解決的問題,而是一個重度的咨詢過程,遷移工具隻不過解決了最後一公裡的問題。

從2018年初開始,我們和使用者方組成的江蘇省農信業務專家組,深入每個地市,嚴格遵照調研、評審、實施、切換進行科學的上雲。從基本的系統資訊采集、整理到業務系統上下聯分析,繪制拓撲圖,安全性等進行全面評估,之後根據調研的結論整理實施方案、進度,實施方案中要将一切在遷移後的變更提前進行整理,確定遷移過程中萬無一失。通過輔助實體裝置進行全量資料拷貝,運輸到省端後進行切換上雲,最終在合适的時間點完成增量及業務切換過程。在2018年下半年,平均一周就可以有三家農商行的業務系統實作全面上雲。

在這個項目中,我們的産品得到了極大的錘煉,經受了大規模遷移的考驗。通過專有雲的建設和業務系統遷移,3年共為江蘇農信節省IT投資5.6億元。截止2018年9月30日,總共完成54家二級法人共1200多套系統遷移。同時,雲平台的從最初的15個節點增長到了130多個節點,存儲從0.2PB增長至3PB。

從一朵雲到一片雲

時間到了2019年,我們産品的雲原生的理念逐漸得到了更多客戶的認可,同時這種基于雲原生建構的高度自動化的效果正好填補了雲遷移這個市場空白。甚至某些老牌的災備廠商把我們當成遷移競争對手,直接在軟文中進行”诋毀“,不過這一切恰好證明了我們産品所蘊含的巨大價值。

但是隻能支援單雲的遷移已經無法滿足市場上越來越多的雲遷移需求,是以在2019年上半年,我們準備全面支援更多的公有雲和專有雲平台。我們首先選擇了國内的最大的公有雲提供商——阿裡雲。阿裡雲在最近10年已經成長為中國雲計算領域的标杆,擁有極高的市場占有率,同時提供了最廣泛的API接口支援,為合作夥伴提供最大程度的賦能。由于阿裡雲與OpenStack在一些機制上存在差異,我們通過近3個月的調研和開發,終于突破了阿裡雲的熱遷移。接下來,我們對雲平台的支援範圍不斷擴大,又用了四個月左右時間,覆寫了國内絕大多數的公有雲、專有雲和私有雲平台,成為了名副其實的多雲遷移。

打造極緻的使用者體驗

很多企業級産品留給人的第一印象就是專業且複雜,不教育訓練你兩天你都不會用。在雲遷移領域也是如此,很多雲遷移産品都是由傳統災備廠商對原有災備軟體進行簡單改造後的産物,界面複雜不說,操作還極其繁瑣,遷移一台主機下來,十幾個、二十幾個步驟那是基本配置。是以在我們對産品進行疊代時,希望用To C的思維打造To B的産品。

在初始階段,使用者隻要根據向導配置源端和目标端的資訊後,就可以進入遷移流程。我們将遷移流程分成了三個簡單的步驟:選擇主機、同步資料和開始遷移。通過高度自動化的流程和對雲原生API及資源的巧妙利用,初級的Linux工程師基本上幾分鐘就能完全上手。同時由于自動化程度高,在批量遷移時優勢非常明顯。

一款雲遷移産品的成長史關于作者關于萬博智雲結緣雲遷移挫折中前行從項目中來,在項目中成長從一朵雲到一片雲打造極緻的使用者體驗在巨人肩膀上一起成長結語

由于之前一直從事的是私有雲領域的産品研發,導緻我們的研發團隊在産品開發中存在一種慣性。為了滿足私有化部署的需要,我們往往需要将安裝包做成無網絡依賴的ISO格式。這直接導緻的後果就是使用者在試用我們的産品時往往需要先花很長一段時間去下載下傳我們的安裝媒體,之後是安裝,最後才能試用。這個一來一回的過程,往往就是一天的時間被浪費了。這一點在公有雲遷移時,會讓人覺得更加繁瑣,是以在2019年下半年,我們決定将我們的産品SaaS化,讓使用者更快速的體驗我們的産品而非将時間浪費在安裝的環節上。由于人力資源的限制,研發團隊和運維團隊都受到了極大的挑戰。研發團隊需要開發新的子產品以支援營運、多租戶等SaaS需求,同時還要對原有的通訊模式進行改造,避免雙向通訊的發生;而實施團隊需要兼顧私有項目和線上運維,這就要求平台穩定、高可靠、易運維,是以對雲原生的應用就變得尤為關鍵。我們利用阿裡雲的Kubernetes容器服務和各種雲原生元件完成了SaaS化的改造,在沒有增加任何人力的情況下,在2020年初完成SaaS的全面上線。

在巨人肩膀上一起成長

2019年初,AWS斥資2.5億美金收購了以色列災備初創公司CloudEndure,雖然這家公司以災備公司名義被收購,但主要業務卻是提供向AWS的遷移服務。我們的産品在設計理念和使用者體驗上與CloudEndure非常相似,同時我們的産品可以支援國内衆多的不同的雲廠商。

AWS對CloudEndure的收購給了我們非常大的信心,讓我們堅定了走雲原生遷移、災備産品的思路。我們發現這個市場在國内基本上屬于空白階段,雖然傳統災備廠商的工具可以靠堆人解決項目上的問題,但是真正讓使用者自助式的遷移平台才能讓使用者自主配置設定在雲端的負載,讓雲資源得到更快速的消耗,最終讓雲廠商獲益。

于是一個大膽的想法在腦海中形成,能不能把我們的遷移軟體以雲原生服務的方式內建在公有雲平台中呢?經過幾番周折,我們開始與阿裡雲進行接觸。非常感謝阿裡雲的陳緒博士幫我打開了和阿裡雲團隊的合作大門,在2019年與阿裡雲對接完成後,我們首先迎來了就是阿裡雲ECS團隊的考驗,在對産品充分測試後,我們在杭州與阿裡雲生态合作夥伴團隊、投資部門進行了會面,這次會面徹底打開了我們與阿裡雲的合作大門。

2019年底,我被評為阿裡雲解決方案領域MVP,進一步促進了我們與阿裡雲之間的合作。2020年初,阿裡雲控制台上的應用工具市場吸引了我的目光。這種與阿裡雲深度整合的方式,對于雲原生遷移、災備是絕佳的栖息之地。通過阿裡雲MVP營運團隊的引薦,我們成功的和阿裡雲應用工具市場團隊進行了對接,同時在2月底決定上架阿裡雲應用工具市場。

一款雲遷移産品的成長史關于作者關于萬博智雲結緣雲遷移挫折中前行從項目中來,在項目中成長從一朵雲到一片雲打造極緻的使用者體驗在巨人肩膀上一起成長結語

上架阿裡雲應用工具市場的過程絕非一帆順利,阿裡雲對此有嚴格的安全性要求,上線前必須要通過阿裡雲安全部門的嚴格審查。為此,我們做了一些架構上的調整和安全性的加強。最終經過近3個月的努力,終于将我們的平台與2020年7月10日晚8點正式上線。上架後的遷移平台,與阿裡雲的使用者體驗保持完全一緻。使用者使用時毫無違和感。

一款雲遷移産品的成長史關于作者關于萬博智雲結緣雲遷移挫折中前行從項目中來,在項目中成長從一朵雲到一片雲打造極緻的使用者體驗在巨人肩膀上一起成長結語

緊接着通過MVP營運團隊與阿裡雲Apsara Stack團隊取得了聯系,開始對接Apsara Stack專有雲,截止到8月初已經徹底實作了對Apsara Stack自動化遷移的全面支援。

結語

2020年4月,國家提出了新基建的發展目标,首當其沖的就是資訊基礎設施,而雲計算作為新基建的底座,重要性不言而喻。2020年初的疫情,讓全社會意識到”雲上社會“的重要性,可以預見的一點是,全面雲化的時代正在到來。

通過與阿裡雲的全面合作,為我們的産品帶來了頂級流量入口,擷取客戶信任的時間更短。未來,我們也會将我們的産品打造成基于雲原生的備份、容災産品,為更多的雲客戶提供完美的使用者體驗。歡迎各位有志之士加入我們的團隊,也歡迎有需求的客戶加入我們的遷移群參與讨論(關注微信公衆号後回複”支援“)。

一款雲遷移産品的成長史關于作者關于萬博智雲結緣雲遷移挫折中前行從項目中來,在項目中成長從一朵雲到一片雲打造極緻的使用者體驗在巨人肩膀上一起成長結語

繼續閱讀