2017双11全球狂欢节,阿里再创奇迹,成交金额1682亿,交易峰值32.5万/秒,支付峰值25.6万/秒,数据库处理峰值4200万次/秒。
双11前夕,阿里巴巴集团CTO行癫就给阿里两万多位工程师下了一个很新鲜的KPI——“双11晚上,大家的主要任务是喝茶。”
能如此淡定喝茶的背后,除了无数阿里技术小二的才智与努力,还有很多阿里的黑科技支撑着这样世界超级工程。现在我们跟着阿里云云效一起来揭秘下有哪些基础设施黑科技?
<b>蜻蜓——世界领先的大规模文件分发系统</b>
<b></b>
<b>黑科技指数:</b>
<b>解决痛点:</b>大规模文件分发稳定性差、效率低、成本高的难题,解决大规模镜像分发的成功率、效率难题。
<b>实践效果:</b>平均每天上百万次下载,TB级数据分发。平均成功率99.9999%。全集团覆盖率90%以上。解决了跨机房,跨地域,跨国际的分发难题,可以全天候,全球范围内提供不间断的服务。支撑了双十一大规模快速建站。兼容Docker mirror协议,支持Docker,Pouch,Hyper。
<b>产品推荐:</b>蜻蜓即将在阿里云云效中开放对外,赋能更多阿里云企业用户,帮助企业解决跨积分、跨地域、跨国际的文件分发难题。
<b>Sigma——阿里所有服务器像一台机器一样被管理</b>
<b>解决痛点:</b>为了保证系统的在线交易服务顺利运转,最初几年,阿里都是在大促来临之前大量采购机器储备计算资源,双 11 之后资源大量闲置。是否能把计算任务与在线服务进行混合部署,在现有弹性资源基础上提升集群资源利用率,降低双 11 资源新增成本?
<b>实践效果:</b>2017年双 11,Sigma调度可以跨多个不同平台来分配双11所需资源,使双11IT成本降低50%;混部技术把服务器资源利用率提升30%,复用计算任务集群为双11节约大量服务器,全网Pouch化实现阿里在线服务全面容器化,内部达到百万级容器部署规模。基于资源弹性和混部技术的云化战略又一次为双 11 带来成本的降低,未来这样具有混部能力的混合云弹性能力将通过阿里云开放,让用户以更低的成本获得更强的计算能力,进而帮助整个社会提高资源效率。
<b>混部技术详细解读:</b>欢迎关注云效(ali_yunxiao)微信号,回复混部即可。
<b>StarAgent——百万级运维通道</b>
<b>解决痛点:</b>还记得哪些年我们半夜爬起来重启服务器的暗黑历史吗?如何保证百万量级主机管理能安全、稳定、高效,如丝般顺滑?
<b>实践效果:</b>StarAgent支持百万级规模服务器管控,通过基于消息的分布式架构改造,1秒可操作上万台服务器,系统具备多中心部署能力,单机房/单存储故障不影响业务,高危操作自动识别与拦截有效第保证系统安全。
<b>X-Cluster——阿里10年分布式数据库技术沉淀 </b>
<b>解决痛点:</b>2014 双11随着业务高速的增长,同城主备 AliSQL 部署的方式已经无法满足阿里对可扩展的部署、国际化以及容灾方面的需求。“异地多活”成为了公司应用的新标准。“异地多活”也给底层的数据库提出了新的容灾要求。传统的 Master-Slave 架构下,主备如果不使用强同步模式就会存在数据丢失的可能,然而强同步下一旦有节点异常,则整体不可服务。
<b>实践效果:</b>X-Cluster是阿里巴巴自研的分布式数据库。2017年双11,X-Cluster服务于淘宝天猫核心交易系统,经受了零点压力峰值的考验,并且在数据质量得到保证的前提下,提供了高效稳定的跨单元数据同步服务。
<b>X-Cluster技术详细解读:</b>欢迎关注云效(ali_yunxiao)微信号,回复X-Cluster即可。
<b>网络自愈技术</b>
<b>解决痛点:</b>作为一名工程师,网络无疑是最最基础的,一旦出现其中一个方向的网络故障,就会影响成千上万甚至亿级用户的正常使用,如何保证网络稳定运行?
<b>实践效果:</b>通过实时准确的故障发现和故障收敛能力,结合自动化恢复,2017年阿里巴巴网络已经具备自愈能力,全面保障双11全体业务的稳定运行。
<b>Aone——一站式项目生命周期管理</b>
<b>解决痛点:</b>双11的交付时间不可妥协,所有工作必须在11.11之前全部ready,这就要求项目必须按计划交付,但1000+的项目计划制定的是否合理?是否满足双十一的节奏?项目交付是否按计划完成?过程如何check?信息透明是PM在双11项目管理最大的挑战。
<b>实践效果:</b>2017年双11,Aone支持30+个BU,100+个核心产品,1000+个垂直项目,在2个月时间里,几千人共同协作完成双十一大促的所有准备工作。
<b>产品推荐:</b>Aone作为阿里巴巴集团统一一站式研发协同平台,提供一站式项目生命周期管理流程,从需求-计划-协作-风险-跟踪-反馈环环相扣,并与构建发布流水线进行有机集成;支持Scrum和看板模式,通过里程碑、项目等级分层、漏斗式式风险管理, 将双11的项目进度准确无误地传递到各个业务和组织;同时,通过数据度量和舆情监控,反馈项目进展数据,自动计算任务状态停留时长,找出效率瓶颈。通过舆情监控,将用户的反馈声音第一时间反馈给产品、开发,将缺陷快速关联到对应的产品、开发。
Aone的项目管理功能除了满足天猫双11,还为阿里其他部门业务一起进行高效项目管理、协同办公,包括蚂蚁金服、菜鸟、大麦网等,也正在对外,为一万多家外部企业用户提供高效协同服务,对外的产品名称叫阿里云云效,赋能阿里云大中型企业及发展中的创新企业。