小蚂蚁说:
不久前,小蚂蚁为大家带来了《厉害了,蚂蚁金服!创造了中国自己的数据库OceanBase》,这篇故事用两万多字的篇幅为大家讲述了蚂蚁金服完全自主可控的中国自研分布式关系型数据库OceanBase背后的研发故事,受到了大家的热切关注。
在蚂蚁金服内部,另一个同样重量级的的分布式中间件自研技术同样值得关注。从2004年支付宝成立开始,蚂蚁金服在过去十多年时间里走出了一条自研的、面向超大规模互联网金融应用的、金融级中间件技术体系。本文同样用超过万字的篇幅为大家回顾了这过去十年的研发故事,一起来感受一下吧!
前言
中间件,是与操作系统和数据库并列的传统基础软件三驾马车之一,也是难度极高的软件工程。传统中间件的概念,诞生于上一个“分布式”计算的年代,也就是小规模局域网中的服务器/客户端计算模式,在操作系统之上、应用软件之下的“中间层”软件。早期中间件的出现,是为了解决日益复杂的PC服务器、网络甚至不同地理位置机房之间等异构硬件环境中,支撑应用软件的挑战。与操作系统和数据库不同,中间件并没有一个明确的定义,通常来说包括消息、数据、远程过程调用、对象请求代理、事务、构件等几个部分。
随着互联网的快速发展,特别是云计算在近十年的蓬勃进展,企业的IT环境发生了深刻的变化:从过去基于局域网和城域网、单一城市地理范围的分布式计算环境(传统企业),向基于互联网和光纤网络、全国甚至全球地理范围的超大规模分布式计算环境演进(互联网企业)。在这个过程中,软件也向大规模互联网服务和云服务演化,无论是操作系统还是数据库都发生了深刻的变化,中间件也在这个过程不断演进和扩大自己的边界。
中间件的发展代表着技术架构的升级和变迁,而这与企业组织模型和业务实践息息相关。理论上,中间件向下屏蔽异构的硬件、软件、网络等计算资源,向上提供应用开发、运行、维护等全生命周期的统一计算环境与管理,属于承上启上的中间连接层,对企业来说着重要的价值。根据康威定律,软件和系统架构设计,和企业的组织结构、业务流程和沟通方式息息相关,因此,随着企业业务规模的超大规模和快速迭代发展,中间件质量和能力的高低就直接决定了企业技术架构的命运。特别是随着数字商业的兴起,过去不能被业务感知、不能为最终用户带来直接价值的中间件,也成为了数字业务的一部分。
蚂蚁金服是一家旨在为世界带来平等金融服务的科技企业,作为原生的数字企业和数字商业代表,蚂蚁金服从2004年成立支付宝开始,在过去十多年的时间里走出了一条自研的、面向超大规模互联网金融应用的、金融级中间件技术体系。特别是自2008年双十一以来,在每年双十一超大规模流量的冲击上,蚂蚁金服不断突破现有技术的极限,在金融领域达到了前所未有的技术成就,特别是历时十年自研的中间件技术可以满足2017年双十一25.6万笔/秒的支付峰值、全天14.8亿笔的支付,而2010年双十一的支付峰值为2万笔/分钟、全天1280万笔支付。在过去几年内,蚂蚁金服自研的中间件技术所支持的支付峰值翻了750倍、全天支付笔数翻了115倍、交易更覆盖全球225个国家和地区。
极限业务场景催生了极限的IT体系。蚂蚁金服的金融核心技术部负责人赵尊奎(花名:妙才)说,他经常接待外部的金融机构负责人来参观和了解蚂蚁金服的IT体系,“看过的都表示不敢想象”。今天,蚂蚁金服的软件工程成就,已经把双十一极限挑战变成了新常态,而这套支撑蚂蚁分布式实践的架构体系,称之为SOFA(Scalable Open Financial Architecture,简称 SOFA)。
SOFA最近在不断加大开放和开源的步伐。2018年6月,笔者走进蚂蚁金服的技术团队,与蚂蚁金服CTO程立(花名:鲁肃)、副CTO及首席技术架构师胡喜(花名:阿玺)、中间件团队负责人杨冰(花名:杨延昭)、技术风险团队负责人陈亮(花名:俊义)、金融核心团队负责人赵尊奎(花名:妙才)等进行了深入访谈,了解了蚂蚁金服技术架构并不广为人知的十年研发故事。
面向全人类的金融科技平等
蚂蚁金服的中间件架构及基础体系SOFA经过了十多年的漫长发展,是一个极其复杂的过程、经过了无数次的拆分与合并、结合以支付宝为代表的互联网金融业务需求与要求、多次超越了人与机器极限的庞大软件工程。在讲述SOFA的故事之前,有必要理解蚂蚁金服CTO程立(鲁肃)、副CTO及首席技术架构师胡喜(阿玺)在2017年总结及展望的面向全人类的未来数字金融愿景。
为什么说是面向全人类的数字金融新世界呢?截止至2018年3月31日,蚂蚁金服旗下的支付宝和其合作方旗下的全球活跃用户数已达到8.7亿;随着支付宝收钱码的普及,遍布中国大街小巷的商户逐步实现了收银环节的数字化;与此同时,越来越多的人在支付宝的城市服务中办理过包括社保、交通、民政等12大类的100多种服务,超过30个城市的公交、地铁先后支持支付宝……
而根据艾瑞咨询的数据,2017年中国的网上支付交易规模达2075.1万亿元,2018年第一季度支付宝与财付通两大巨头占据中国第三方移动支付交易规模市场份额的90.6%。而截止到2017年6月,已经有25个国家接入了支付宝,全球200多个国家用户可使用支付宝。除了支付宝,互联网支付、移动支付以及基于各种互联网金融技术的金融业务已经遍地开花,传统银行等金融机构都在积极推进互联网金融业务和数字金融体系,而阿里等电子商务的全球化发展也把新金融和金融科技进一步推向全球。人工智能、区块链、物联网等新技术正在成为金融科技的基础,一个属于全人类的未来金融正在形成中。
蚂蚁金服CTO程立认为,科技金融或现代金融最核心的变革就是数字化的变革,最核心的科技进步也是数字科技。所谓的科技金融,背后其实就是数字金融。而数字金融能够带来最大的改变,就是更加包容、更加可持续、更加绿色的金融,服务于实体经济。随着数字技术的发展,将会给全人类带来数字社会、数字经济和数字金融三位一体的演进。
▲ 蚂蚁金服CTO 程立
在程立看来,蚂蚁金服不是为了做技术本身而做技术,而希望用技术来解决社会当下和未来的问题。如果说用金字塔结构来描绘数字金融的社会价值,在塔顶的就是数字金融能在全球范围内带来更多平等的机会。
那么这个“平等”到底怎么理解?还要回看马云对整个阿里巴巴集团的愿景:办102年的企业,让天下没有难做的生意。在阿里巴巴集团18周年年会上,马云说:“我们希望为全世界解决1亿的就业机会,我们希望能够服务20亿的消费者,我们更希望能够为1000万家中小企业创造盈利的平台。”而具体到未来5到10年,“我们不是要超越谁,也不是要当世界前三,而是要为未来解决问题,要为中小企业、为年轻人、为我们当年‘让天下没有难做的生意’这个承诺去付诸于行动。”
作为大阿里系的核心成员,蚂蚁金服对更多平等的机会理解就是,让全世界的年轻人能够平等地获得金融服务,支持其发展;让全球消费者能够平等地获得金融服务,更便利的生活;让全球的中小企业能够平等地获得金融服务,享受与大企业一样的商业机会。
怎么实现更多平等的机会?
这就需要“包容(Inclusive)”和“可持续(Sustainable)”。
“比如说去喜马拉雅山的珠峰大本营,通了电以后,大家把二维码贴上去,为什么呢?因为之前没有通电、没有二维码,大本营的小商户都是现金交易,导致这些小商户必须每过一段时间就要去最近的银行兑钱或各种缴费,一趟就要半天的时间。有了电和支付宝以后,所有事情都可以数字化解决了。无论在上海、杭州还是高海拔的珠峰大本营,都可以获得一样的金融服务,这是一个平等的过程,所以包容、可持续发展的绿色数字金融是我们的核心技术理念。”胡喜补充说。
▲ 蚂蚁金服副总裁、副CTO 胡喜
程立认为:要想建立一个包容、可持续发展的绿色数字金融,有三个很核心能力要建设——连接、风险和信用。
首先是连接。金融服务过去要能够触达到消费者和商家,成本和运营都很重,比如银行要开很多的线下网点,有了数字技术之后就可以用很轻的方式触达到上亿的人,所以整个连接触达方式,无论从广度和深度上都发生了变化。银行的线下网点覆盖会越来越少,跑网点的商家与消费者也会越来越少,甚至未来IoT时代可以随时随地触达。因此连接是一个非常重要的能力,不光是跟消费者连接、跟商家连接,也包括跟合作伙伴的连接,因为金融服务从生产到消费有很长、很多的产业链,连接能力能够让整个链条的协同更加高效、更低成本、更少摩擦,所以“连接”是未来数字金融的核心能力。
其次是风险控制。蚂蚁金服要让更多的人享受到平等的金融服务,如果想让用户的体验简单、高效、体验好,背后的风险必然就提高了;如何在风险提高的同时,又能让支付过程中用户体验更加顺畅,更加少打扰用户,核心背后还是技术能力的提升。
最后,最核心能力就是信用。如果未来真的建立一个全社会的人与人、机构与机构、人与机构之间新型的信任机制,整个金融服务的成本可以进一步大幅降低,也可以更好的控制。“所以我们认为这三个是未来要做数字金融要突破的三个核心能力。
能支撑住连接、风险和信用三大能力的是交互、决策、交易和协同四大业务技术能力。程立说,蚂蚁金服现在系统做得这么大,但每个系统剥开来看,一个个组件无外乎就是做了交互、决策、交易和协同这四件事情。第一,交互技术,包括怎么与消费者、机构等交互,而像刷脸支付、人脸识别进地铁等新交互技术,不但带来了体验上的变化,也带来了商业流程的变化。第二,决策技术。无论是风险控制,还是建立信用,甚至一个营销事件,背后都有一套决策引擎。比如经过一系列的用户行为画像,自动化地通过算法和模型给出决策。而决策技术的提升,可以带来连接、风险和信用能力的提升。第三,用最低的成本处理交易。只有以更低的成本、甚至是远低于银行处理交易的成本,才有可能让很多新业务形态发生、提高交易能力,像淘宝的双十一大促随着交易能力的提升,体验和规模都增长得非常快。交易能力还体现在扩展能力,如何让数字金融服务可以服务1亿,甚至20亿到30亿的全球消费者,根本在于低成本的系统扩展能力。第四,协同技术。通过重构整个金融产业链条上的各个环节的连接,通过技术平台连接银行、金融机构等,从而让连接的机制发生变化。
在四大业务技术能力之下的金字塔基,就是最根本的基础技术BASIC,即区块链、人工智能、安全、物联网和计算。这五大技术基础技术就是蚂蚁金服技术战略投入的方向,其中SOFA就是计算的核心之一。
程立强调,当前其实已经有机构看到了互联网金融应用和数字金融的大方向,但是落实到企业或金融机构去解决具体问题时,又有两个不同的路径,一是金融机构开始用数字技术去解决过去解决不了的问题,二是像蚂蚁金服这样的互联网企业从科技视角去提供金融服务,而且这二条路径现在慢慢越来越走到同一个方向。当殊途同归的同时,就出现了金融机构和互联网企业之间协作的新方式,因为金融机构有核心能力、互联网企业也有自己的核心能力,双方正在形成一个新型的合作方式。
此外,科技金融或者金融科技还有“硬币的另外一面”,这就是金融监管的科技化升级:一方面发展金融科技,一方面发展新型的监管科技,两者结合的背后是真正对整个金融系统的风险洞察和理解。只有整个金融系统可持续发展,金融系统里的每个单元才是可持续发展。
对于蚂蚁金服来说,风险是永远的底线。蚂蚁金服有一支非常固定的风险团队,这个团队从来没有人员缩减,永远保证足够的人力。关于业务创新、用户体验和监管,这相当于天平的动态平衡,一旦动了一个、另外两个就会联动,所以这三者是要一起解的局。对于蚂蚁金服来说,每个新业务都会同时从几个方面进行评估,也会与监管机构做非常深入的沟通,基于更全面的理解之后,在各方面都取得最优的形态和背后的技术实现,再推出新业务。
程立强调:“对蚂蚁金服或者阿里巴巴来说,首先我们是非常的理想主义和愿景驱动,当确定可以给全世界带来更多平等的机会时,这一定指引我们的方向。但是我们也是一个非常现实主义的公司,当遇到具体问题的时候,会看怎么能够很好的绕过当下的障碍,从而走到要走向的未来。在遇到具体的现实问题的时候,也不会采取非常僵硬的方式。具体问题肯定是要具体分析的,但是我们的愿景不会变,也不会把所谓的价值观变成教条。商业上的可持续发展,对我们来说非常重要,如果我们商业上都不能可持续发展,就走不到未来。”
SOFA的特性
在更包容、更可持续的绿色数字金融大愿景之下,从2005年每秒处理1笔交易到2017年双十一峰值25.6万笔交易/秒的交易处理能力,从单一的支付到覆盖微贷、理财、保险、信用等多种服务,通过十多年的探索与实践,蚂蚁金服形成了一套具备海量数据并发处理能力,满足金融级一致性和高可用需求的分布式架构平台,这套架构被称之为SOFA,是一整套完整的金融级中间件产品技术和演进式架构转型服务体系。
SOFA历经了五代的发展。在第五代也就2017年,伴随着蚂蚁金服科技的整体对外开放,全称正式演化成Scalable Open Financial Architecture。Scalable,以「异地多活」为目标,使系统能在多个数据中心内任意扩展,提供机房级容灾能力,保证业务连续性;Open,整体设计秉承「开放」原则,使新兴架构向下兼容,能与经典架构有机融合,同时开放技术标准,拥抱开源生态;F代表Financial,即这个架构是金融级,安全、稳定、可靠是其内在的属性,具备「分布式事务」和「无损容灾」能力,保证在分布式架构下承受高并发交易,在系统扩展、容灾恢复、更新发布时确保数据无损,服务可用。
SOFA架构由支付宝自2007年开始自主研发的SOFA(Service Oriented Fabric Architecture)框架发展而来,旨在解决SOA架构下的服务模块化编排协作(Fabric)问题。演化至今,已经是一套完善的金融级大规模交易处理架构,很好的解决了蚂蚁业务高速发展中,对高并发交易处理能力、强一致性、业务连续性、秒级容灾和弹性伸缩等方面的要求,相比传统的金融IT架构和通用的分布式架构具有诸多优势:
- 高并发下的一致性:通过应用层、数据层、网络层和机房层面消除了单点和瓶颈,整体架构支持无限伸缩,创造了25.6万笔/秒峰值处理能力的世界纪录。同时通过基于TCC(Try-Confirm-Cancel) 编程模型的微交易架构,在分布式架构下做到了数据的强一致,是全球目前唯一在超大规模金融级分布式架构上验证过的分布式事务方案;
- 异地多活+一致性容灾能力保证极高的可用率:在数据层通过蚂蚁金服自研的金融级分布式关系型数据库OceanBase实现多库多地多活和强一致切换,在机房层实现异地多活单元化架构,整体达到了 99.99% 的可用率;
- 按需供给弹性伸缩:通过数据、应用、流量弹性伸缩和基于单元化的弹性混合云架构,系统具备了按业务粒度进行资源调配的能力,连续两年通过该技术实现双十一、双十二、新春红包等高峰业务弹性伸缩,2016年双十一50%业务在运营高峰期运行在云上,结束后实现资源释放,实现成本的极大优化。
杨冰作为现在蚂蚁金服中间件团队的负责人,强调SOFA为全自研的金融级分布式架构,理论上可以支持无限伸缩架构(双十一已经是实际的极限情况,目前还没有出现需要无限伸缩的实际业务场景),并且能够通过极低成本实现。
▲ 蚂蚁金服中间件团队负责人 杨冰
首先,SOFA的无限伸缩能力是具备“伸”和“缩”的能力,而且不仅是数据库能无限伸缩,应用、网络等都能做到无限伸缩,一套架构实现所有层面的无限伸缩。
第二,在一致性问题上,SOFA达到了一致性和性能上的平衡,实现了金融交易业务的分布式事务一致性,这属于蚂蚁金服的黑科技。
第三,做整体机房及秒级容灾,现在配备蚂蚁金服自研的OceanBase数据库,能够达到更好的效果。
第四,极低成本,SOFA架构具备演进能力,需要的时候可以做弹性伸缩。例如,单元化能力可以“切一个1%能力的支付宝”,再以这样的单元维度去增加,从而达到无限水平扩展;还可以根据业务维度,把交易系统创建到云上再收回来,比如新春红包的时候,扫五福系统很忙,就可以把扫五福系统弹到云上。
所以,SOFA的关键词包括:无限伸缩能力、一致性、秒级容灾和极低成本并且做到极致,从而定义了新的“金融级分布式架构”。
SOFA 的缘起
程立,花名鲁肃,摩羯座,工号3896。2004年,支付宝刚刚有自己独立的系统,基础平台还得靠外包团队提供技术支持。而2004年2月,程立还在上海交大攻读博士,一个偶然机会让他接触到阿里巴巴,并以外包架构师的身份协助支付宝网站的建设。一年合作下来,程立决定放弃博士学位,并于2005年2月正式加入支付宝。程立以严谨务实、逻辑严密,被蚂蚁技术团队的同事视作“神一样的存在”。
作为曾经的支付宝首席架构师、支付宝第一代架构设计者,以及支付宝史上最大危机——2008年1月1月停机发布17小时——的救火大队长,可以说如果说没有程立,就没有现在的支付宝。在蚂蚁金服入门手册《拾念》中,记载了支付宝史上最惊心动魄的17小时:2008年元旦,支付宝宣布要停机8小时发布“财务三期”,但各种意外接连出现,当时“财务携款潜逃”、“湿抹布导致服务器宕机”的传言满天飞、没有包裹送的快递小哥发帖跪求支付宝快点回来,程立在关键时刻敲了近两个小时的代码,最终结束了17小时的停机发布。
程立讲述了SOFA的诞生历史:最早的支付宝系统,是由还不太会大系统开发的人员实现的,像程立刚从学校出来就做支付宝第一代架构,因此第一代系统非常简单——就是一个简单的应用,装在一台应用服务器上,使用一个数据库,服务一个大客户淘宝。一个简单的系统,支撑了支付宝从2004年到2006年早期的发展。支付宝早期的系统架构虽然简单,但好处是特别快,产品经理希望怎么改、马上改一下代码就能实现了,比如说支付宝红包,从需求提出到上线就四天的时间,但是到后面,这样一个简单系统无法支撑更多的交易量,也不能支撑更加复杂的业务。
从2006年底开始酝酿,那时候支付宝面临最大的一个问题是业务变得越来越复杂,而工程师数量越来越多,原来的系统被称为monolithic——即庞大的单体系统的意思。这个系统慢慢变得无法装载更多更复杂的业务逻辑,也不能让那么多工程师在一起并行的工作。当时,支付宝希望可以成百上千个项目并行进行,而且每个工程师可以不受干扰的工作,而当业务逻辑增加的时候,系统的复杂度不要成指数级上升。
所以,在2006年的时候,支付宝技术团队要做对未来的技术架构做一个选择,当时有两派意见:一派意见是向银行老大哥学习,老大哥已经走了十几年,这条路一定是安全的;另一派意见是走一条新的路,即用分布式的架构去支撑未来的交易支付系统,而这条路在当时还没有人走过。这里的分布式架构,并不是客户端/服务器时代的面向企业级的小规模分布式架构,而是在互联网时代的超大规模分布式架构。经过差不多大概一年左右的讨论和思考之后,支付宝团队做了一个决定,要走一条过去没有人走过的路,于是启动了支付宝第二代架构的建设,即支付宝技术系统的服务化。2007年开始,支付宝启动了对交易系统、商户系统、会员系统、支付清算系统的改造。
就在那一年,支付宝到大连招聘遇到了胡喜(花名:阿玺),他之前已经在前一家公司研究SOA以及OSGi相关技术,于是就加入支付宝团队,帮助程立做下一代架构的转变。胡喜回忆,他在2007年加入支付宝团队的时候,研发人员都比较痛苦。当时的支付宝使用的是阿里巴巴的统一技术框架WebX。WebX是阿里自研发的一套基于JavaServlet API的通用Web框架,在阿里巴巴集团内部广泛使用,2010年底向社会开放源码。WebX比较偏向于前后端融合的架构,能快速搭建一个网站,但是没有考虑到业务发展到一定程度后的复杂度,怎么更好的搭建后台。例如,当时支付宝的一个电子钱包系统叫iWallet,每次系统启动就得五六分钟,开发人员出去抽根烟,回来后如果发现错误又得修改后重新启动,开发人员每天不是在代码编译的过程当中,就是重启的过程当中,一个系统包含了几十个工程,十几个团队并行开发,项目并发也导致了很多的合并冲突和耗时,整个研发效率低下导致很难进行下去。于是,从那开始就着手研究解决支付宝整个架构的变化。
程立给当时要做的这套分布式架构起了一个“SOFA”的名字,其背后有两个含义:一是按照当时的技术趋势,要做面向服务的架构,即ServiceOriented Architecture,但加入了金融业务,所以是Service Oriented Fabric Architecture;二是希望能够像沙发一样,让工程师可以非常爽地工作。所以当时出于这么简单的考虑,就开始打造SOFA。所谓SOA和服务化改造,就是把企业的IT系统以“服务”的方式重新组织起来,再通过“服务总线”连接起来形成可插拔式的企业IT架构,这个架构就是SOA。这里要注意的是,SOA其实是一套面向传统企业IT的架构思想,而且在SOA早期则只有理论框架而无具体的成功实践。
第一代的SOFA其实就解决两个问题:一是当要把系统变成分布式的时候,怎么有一个像“胶水”的机制也就是连接器,可以把分布式系统连接成一个整体;二是希望每一个服务本身是组件化,所以当时第一代SOFA里采用了OSGi(一套Java模块化规范,允许应用程序使用精炼、可重用和可协作的组件构建),这样每个工程师可以专注于各自的组件,最后又能够把这些组件拼装在一起成为“服务”,再把“服务”拼装在一起成为整个大系统。这一整套框架,就是第一代SOFA框架。
有了第一代SOFA技术架构之后,支付宝团队就开始做非常关键的业务服务改造。首先是把支付宝所有用户的核心账务系统变成一个业务服务,从而可以和其它业务组装起来。但是把账务拆出来以后,遇到一个更难的问题:怎么解决分布式服务一致性的问题,也就是分布式事务问题。而在解决这个问题的时候,当时支付宝团队冒了很大的风险,在启动这个项目的时候还并不清楚怎么解决最好,而当时可以参考的行业技术趋势就是SOA以及业界提出的几个SOA框架。
SOA业界那时候提出两个SOA事务的标准:一个是基于Atomic Transaction(原子性交易),叫WS-Atomic Transaction;另一个是基于业务流程编排的事务,叫WS-BusinessActivity;开源社区通过JBoss的TransactionServer实现了这两个参考标准下的事务。当时,支付宝的技术团队就在想,能否用JBoss开源技术与这两个标准去构建支付宝的核心交易和账务?然而,项目开始后的不久,也就三个月左右的时间,当项目进行到一半的时候,发现这两个当时业界的标准和开源实现却根本不可能支持一个实际的应用。
原因很简单,一个最简单的核心交易系统和核心账务系统,进行最简单的一个事务,也要经过十几次的消息传递,其中任何一次消息传递如果中断,那么这个事务就失败了,而且失败以后,当时业界的SOA标准并没有提出该怎么恢复失败的事务,同时任何一次交易都经过十几次的消息传递的话,也导致整性能非常低。这样一个系统如果最后发布的话,其实是不能支持支付宝当时的交易量。所以当项目进行到一半的时候,团队就放弃了业界标准及其开源实现,必须找到自己的一条路。
当年,关于分布式事务的一致性,业界另一条路径是基于两阶段事务标准(Prepare阶段与Commit阶段)和开源分布式实现XA,但当时已经知道PayPal曾经走过这条路,结果是导致系统宕机一周,最后系统全部回滚。
所以那个时候,支付宝技术团队就考虑能否自己提个标准,这样一来就简单了:首先是要解决分布式一致性问题,必须要分布式的提交协议,这个协议如果在数据库层实现,效率会非常低下,因为数据库层不懂任何的业务逻辑,只能以一种通用的方式去实现,从而导致无法对上层的业务逻辑层进行优化,所以就想到把提交协议放在服务层。
“那个时候,我们大的想法很简单,既然支付宝系统已经拆成了一个个非常小规模的服务,那么就让这个服务本身具备事务的属性,叫事务性服务。这样一个个小的事务性服务就像一个个小石头一样,可以装到一个大的杯子里,然后再设计一个分布式的提交协议,把这一个个小的事务绑定成一个大的业务事务。而这个服务也不仅是微服务,而其实是一个微交易,把每一个服务变成一个交易,再通过一个编排的框架,把每个交易变成一个大的整体服务。”程立用比较形象的语言解释了现在被称为蚂蚁金服黑科技的分布式事务XTS (eXtended Transaction Service)的由来。
有了这个思路,当时支付宝技术团队就开始去做了。克服的第一个难点是把已经有的交易服务、账务服务等,变成一个个交易型服务,这个难点当时就突破了;第二个难点是要实现一个可扩展(Scalable)的框架,去编排海量的事务,那就是XTS。大概在2008年1月份,SOFA项目就上线了,上线以后至今不断打磨,一直到现在还支撑蚂蚁金服整个的业务交易。
SOFA的演进过程
从第一代到眼下的第五代,SOFA的演进过程其实是支付宝从最早的一个大型的业务与IT交织在一起的单体系统,一边拆金融业务系统(即后来的业务中台)、一边拆底层IT系统(即后来的数据中台、计算中台)的过程,在拆分的过程中还要解决新出现的可扩展性、一致性问题等各种问题,同时不断应付每年都能击穿系统极限的双十一,还要把数据从原有系统一点一点“倒腾”到新系统里、同时管理新增的海量数据,这样一个极为复杂的过程是怎么进行的?有趣的是,这个过程的附加值之一,就是在无意中完成了去“IOE”,因为从单体系统拆分到互联网分布式系统,本身就是用PC服务器机房代替昂贵IOE设备的过程。
“整个过程可以说一路狂奔。”杨冰后来回忆整个过程。“‘萝卜’就这么几个,坑那么多,根本就填不过来的状态。每个中间件产品连‘一个萝卜一个坑’都做不到,很多‘萝卜’是放在两个三个坑里面的状态,你就想有多挑战了。其次,每一年都是翻一番的业务指标倒逼。整个团队的状态基本上是一年大促结束后,春节一过就开始密集准备下一年大促,一眨眼的功夫离双十一就没几个月了,很多系统的技术改造可能要到6、7月份准备好,再全部升级上去,业务还在不断变化,不停有新的想法冒出来,每年就是这么个状态,基本都是开发飞机就把发动机给升级上去了。”
程立回忆,SOFA早期的开发是完全违背项目管理逻辑,在项目推进的过程中既有研发平台又有研发上层的业务系统,相当于把很多风险都导在一个项目里面一起做,SOFA第一代项目就是靠团队齐心协力,每天都会遇到新问题、每天都要去解决各种问题,但大家背后有必胜信念而且非常拥抱变化,敢于在项目的中后期把前期架构决定全部推翻掉,再用一套新的架构替代。“所以到2008年那次账务三期的发布,那次原定发布8个小时,后来我们发布了17个小时,说明在项目发布过程中,还是有很多问题没有解决,但最后我们硬生生把这个项目给发布下去,而且成功了,现在回想起来,其实是有一点后怕的。”程立笑说。
2008年之后,支付宝技术团队开始确定一个原则,即所有的发布不得停机,必须要确保项目发布没有风险。其次,要结束所有的研究型项目,技术研究要把技术问题解决了,再用到商业系统里面去。而且从2008年开始,每个新技术都不会首先用到最核心的系统里,而是会在相对边缘的业务系统里经过充分考验以后,再用到核心系统里。
在SOFA初期,可以看到做交易和账务这两个项目的时候,业务系统开发人员与技术平台的开发人员是不分的,无论是程立还是胡喜,都是一会儿写业务交易的代码,一会儿写下面的技术平台代码,工程师团队也没有严格区分。后来开始建立中间件团队,杨冰基本上也是那个时候加入,分配一部分人专门研究底层技术,另一部分人专门写上面的应用系统架构,慢慢开始变得越来越正规了,包括对于新技术上线过程的灰度和控制,也会做得更好。
杨冰回忆他在2009年以刚毕业的研究生身份加入支付宝团队的时候,当时服务化拆分的过程是程立、胡喜亲自参与,一边对WebX系统做服务化拆分,一边胡喜写了SOFA框架的原型,杨冰与后面加入的小伙伴就帮助不断完善SOFA。“当时我们还很初级,基本上是程立和胡喜带着我们去实现他们构想出来完整一套思想。当时虽然服务化和SOA的概念很火,但业界的实践远没有现在这么丰富,很多实现机制都是摸着石头过河。业务服务化拆分又是另外一条主线,当时主要是程立、胡喜、倪行军(花名苗人凤,支付宝第一代首席架构师,蚂蚁金服支付宝事业群总裁)参与,这几个人都是既写框架代码和组件代码,又参与业务代码拆分。当时支付宝所有的业务都在演进,支付宝架构团队一方面在业务逻辑拆分和技术架构拆分的过程中熟悉支付宝的业务,一方面在熟悉业务的基础上思考如何从中抽象出可复用的代码、数据和框架,以更好的支持未来的业务。所以当时就是一边在做业务和技术的人肉拆分,一边又把拆分的部分挪到新的框架中去承载。整个过程不是设计好了再搞,而是一边做一边搞。”
XTS框架都是在那样一个过程当中写出来的。因为在原先集中式架构是不会出现事务一致性的问题,拆分以后就出现了这样的问题。当问题出现以后,就一边拆一边解这个问题。当然,解决的时候也不是人为介入,而是构想出技术化的方案,甚至沉淀出来一套技术。那个时候,支付宝系统里的Oracle数据库还在用,小型机等高端传统设备都在用,支付宝的业务系统包括会员、交易等被拆分出来后,就直接跑在X86架构上,这不仅是物理形态和部署形态上的差异,更是由单体应用的开发模式变成SOA化的分布式开发模式,这就是从WebX到SOFA的演进过程。账务系统是最后一个从支付宝拆分下来的系统,随着账务系统的拆分成功,IOE设备也彻底从支付宝系统里下线。
在整个支付宝架构的改造以及SOFA的发展过程中,关于中间件的基本构成和思想是有业界参照的,比如消息中间件、数据中间件、事务中间件等,但SOFA技术团队要做面向超大规模互联网金融交易的分布化改造,而其中的黑科技诸如单元化,则是被业务倒逼出来,完全没有业界参考的实践,“我们找到的一些论文,一些概念,一些类似的做法,但当时支付宝的体量已经很大了,没有人确定这事儿真的能做成,而且是在金融这个高危的业务场景下”。
“套用蚂蚁金服前CEO彭蕾的话,她曾提到过大家做的很多事情就是怎么把马云的决定变成一个正确的决定,而我们在整个中间件工程实现过程中,也是类似的情况。比如SOFA3时代的合并部署,当时胡喜提出这个概念的时候,内部争论非常大,大家都觉得这件事情不靠谱,而且很难做、非常复杂,阻力非常大。最难的事情,是说服团队。但最后大家还是为能做成这件事情,并为公司节省下这多成本而感到骄傲”杨冰回忆。
为了解决新的挑战,蚂蚁金服的中间件技术团队想了各种办法。杨冰为单元化架构当中RPC调用设计的路由逻辑:对于各种业务系统,有的可以升级、有的可以改造、有的不行,那么在RPC远程服务调用时就会有五六种分支去决定到底是本地优先、还是要跨机房、还是要根据业务的分库分表做路由等等。这个逻辑极其复杂,在于既有同构机房、又有异构机房,而异构机房又要把通讯收敛到一个代理,所以又会有代理的存在,导致非常复杂。而为了收管没法升级的系统,甚至该系统的负责人都已经不在的情况,就用一个类似于Service Mesh技术代理,去“伪装”这个服务。“整个架构是很漂亮的,但是工程实现中的每一个细节都很复杂,所有的设计都充满了架构的平衡的智慧。我们在实现整个过程以后,再慢慢把完全没有必要的三四个路由逻辑去掉,变成比较规整的模式。基本是这样的过程,因为不能把支付宝停下来。”
负责过SOFA体系中消息中间件的王磊(花名:文若)回忆,阿里从2008年开始办双十一,第一年只是试一下,所以没有很大规模的宣传,甚至连内部很多人都不知道。从2009年是开始支付宝和淘宝一起参与双十一,当时宣传淘宝商城里面所有的商品都是半价,但是因为2008年时候对双十一的力量并没有清楚的认识,到2009年那一年的时候就突然出现了各种问题。王磊当时负责消息中间件,内部叫做Message Broker,属于消息队列:消息从上游应用通过消息中间件传递给下游的系统,包括当时还在使用的Oracle数据库。“当时正在看这个活动的过程,甚至我们自己也在买东西的时候,突然DBA跑过来说要赶快对消息进行限流,因为下游的数据库马上就要撑不住了,数据库的日志空间马上就要耗光了,如果耗光就会导致数据库宕机,再启动起来就是几个小时以后的事情。当时我们小组是三个人,以前从来没有快速对消息进行限流,最后就只能人工登录上游应用的服务器上,然后在服务器上敲命令做流量控制,一条一条的敲下去,最后保住了下游系统没有被冲垮。那个时候很遗憾,因为不是靠消息中间件去限流,实际上是把上游发消息的应用‘杀’死了。后来,经过这件事情以后,我们就下定决心要做一件事情,就是叫做一键限流,在中间件层面对于消息中心的一键限流能力,就是从那天开始建设的。”这样的故事还有很多。“整个过程就像打怪升级,看到一个干掉一个。”王磊的实践,代表了整个SOFA团队的工作状态,也代表了SOFA与其它互联网分布式中间件的最大不同——沉淀了支付宝/蚂蚁金服十多年来,整个业务与IT体系的最佳共享实践。
就是这样,SOFA 的演进伴随着支付宝整个架构的演进而发展,程立回忆,第一代SOFA比较简单,只是搭了一个框架和模型让系统可以运行,到后期系统运行中做了大量的优化,包括要解决通讯的性能、最高效的容灾、异地容灾架构的建设、单元化改造、LDC逻辑数据中心项目等,所有这些慢慢就沉淀在SOFA里面。而SOFA则逐渐从解决分布式服务和分布式交易的问题,变成一个真正解决金融级系统构建的基础架构问题,所以现在把SOFA改名,从原来的Service Oriented FabricArchitecture改为Scalable Open Financial Architecture:这个框架是可以真正解决金融级系统的异地多活的容灾和扩展问题,而且SOFA的可扩展能力不仅是处理更多的交易,还可容纳更多的业务,能够让几千位工程师甚至未来上万个工程师一起协同工作的可扩展架构;Open的意思是希望这个框架相对可以让业务应用非常容易使用,又能与经典架构系统有机融合,SOFA框架未来不但可以编排蚂蚁金服工程师自己写的业务逻辑,而且可以编排合作伙伴的业务逻辑,成为一个完整的编排框架;Financial则意味着SOFA必须是具备金融级属性,能真正实现金融级的一致性、可用性和稳定性。
SOFA的设计哲学
SOFA从第一代发展到第五代,是一个异常复杂而庞大的过程,程立总结SOFA的研发方法论和经验时表示:在整个研发方法和流程上,蚂蚁金服相对于来说是以互联网的方式去做金融,因为蚂蚁金服本身就是一个金融系统,在要求非常严格的同时,也希望有互联网的迭代速度,在这个过程中沉淀下来的经验。
首先,注重架构的治理。蚂蚁金服一直有一个架构师团队,既有总架构师团队,同时又把各个分域的架构师集合在一起,始终保持蚂蚁金服的架构在一张图上。蚂蚁金服架构的迭代演进也非常清晰,从一代、二代、三代、四代到现在的第五代架构,都有非常清晰的演进阶段,这是从治理层面进行顶层设计的结果。
第二,关注技术的风险。蚂蚁金服研发任何系统,要比其它互联网公司多付出可能10%的努力,去保证系统风险的可控,所以蚂蚁金服技术风险管控是嵌到流程里面、控制在整个研发生命周期里面,从而实现了非常好的控制。当然,蚂蚁金服的研发效能团队也会把控,让研发人员尽量简单、尽量智能化。
第三,系统优化是在高度分布化的前提下实现的。蚂蚁金服是比较少有的、几千人工作在一条业务流程上面,最核心支付流程从前端到后端分了很多层、每层里面有很多功能,在这个过程中能够保证非常好的分布和集成效率以及质量,就变得非常关键。所以从整个项目管理的需求、分析、分解,到每个团队去实现,最后再做高效的集成、迭代发布,有非常多经验沉淀在研发部署运维平台上。蚂蚁金服的研发部署运维平台经过多代的变化,有段时间也引进了IBM等供应商的整套方法和工具,用了两年左右时间后发现完全不适合蚂蚁金服工作方式和速度,所以转向自研的平台,并不断轻量化。但也不是外界的开源模式,因为也不适用于蚂蚁金服的情况。
第四,蚂蚁金服中间件团队的另一个共识,Design for failure,即假定在任何情况下底层都有不可靠的风险存在。对金融IT系统来说,任何的底层硬件临时故障或网络抖动都有可能被放大到资金损失或整体服务稳定性层面。对于支付宝这样体量的互联网应用,从设计之初就把高可靠、高可用、高性能的能力要转到中间件层和数据库层去保证。下面的IaaS必须要简单,就是允许底层硬件可以挂掉,挂掉以后由中间件和数据库层负责。为什么会这么做?这是由业务的容忍程度决定的,没法沉到底下的IaaS层,但也没有必要让每个写业务代码的人都自己编写一套代码,所以就沉淀到中间件层。
中间件会被所有人用到、会影响所有的系统,像蚂蚁金服现在有几千个系统和上万个微服务、几千号研发人员,怎么能使在中间件层做的每一项工作都能使整体架构都能平滑升级,而不要让业务系统受影响,怎么建立跟其他开发人员之间的连接,如何平衡效率和运维,这是中间件的挑战。
被问到SOFA 跟别的微服务平台有什么不同,杨冰举了个例子“如果有两套架构在顶层设计的时候,一套将平衡倾向了「成本最优」,一套则倾向了「风险最小」,在实现过程中就会有千百次设计决策会依据这个大原则做出「架构平衡」,到最后出来的架构会完全不同,就像 CAP 理论中的平衡一样,什么样的业务决定着会孵化出什么样的技术,技术最终还是为业务服务的。
总结
创新都是被逼出来的,蚂蚁金服自研SOFA同样如此。SOFA走的是一条跟传统金融行业不同的分布式架构之路。要基于不可靠的硬件系统实现金融级的性能和可靠性,要应对支付宝这样的超大规模互联网金融应用,有很多难题要解决。蚂蚁金服构建了一整套处理金融级交易的分布式架构与平台,在金融级的一致性要求和海量并发处理能力上达到了很好的平衡,并在快速容灾恢复、弹性伸缩能力、多地多活高可用保证能力和按需供给的精细化资源调度能力方面沉淀了丰富的实践经验。
随着 2015 年科技开放战略的启动,蚂蚁金服技术的团队面对的不仅仅是内部业务,还有更加复杂多变的外部业务场景和技术挑战。以前,技术团队是一个被被业务倒逼的支持型组织,现在已经逐步向一个驱动业务的学习型组织和创新型组织转变。“昨天的最好表现是今天最低的要求,由于双11在技术上已经成为常态化工作,满足交易业务已经成为了最基本的要求,所以我们要看到更远的未来、准备迎接更强的挑战。”杨冰的话,从一个侧面解释了蚂蚁金服技术团队对开拓更辽阔数字金融世界边界的期待。