天天看点

GTS-SRE周刊 || 5月集强势发布

GTS-SRE周刊 || 5月集强势发布

前言

阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队,为集团设计和建设了异地多活、大促容量规划、限流降级、开关预案、流量调度、故障演练、资损防控等高可用架构基础设施,深度参与支持了集团历年双11大促的技术保障工作,我们期望通过SRE周刊:

- 将阿里云智能最先进的产品、运维技术传递给不同行业的客户和伙伴,帮助大家更全面深入地了解阿里云产品。
- 促进技术上互相交流,取长补短,打造阿里云产品运维人社区论坛,共同促进阿里云产品的不断完善。
点击加入社区技术论坛,随时交流技术难题

阿里云SRE技术期刊重点内容概览- 2020年5月第1周

本周封神榜:智能运维服务助手

封神榜是SRE团队提供的从业务、产品、安全、故障四个维度对项目进行全方位监控的运维服务工具,可实现为不同关注点的客户提供问题、故障、性能、容量、优化建议等运维服务内容推送。

功能定位:稳定性是基础、增强运维服务、补全监控短板。

服务目标:业务优化、云平台监控、客户服务、故障响应。

应用实践:MQ实例监控、安全事件告警。

服务案例:SRE团队全力保障多地健康码顺利上线(上)

2020年初,新冠肺炎疫情爆发,阿里巴巴配合多地政府开发健康码,实现数字化防疫。SRE团队协助完成各类资源准备、业务压测、业务优化以及持续性数据监控等工作,保证了健康码顺利上线和运作。

阿里云SRE技术期刊重点内容概览- 2020年5月第2周

本周技术:RocketMQ消息存储技术

RocketMQ是阿里开源的分布式消息中间件,跟其它中间件相比, Rocketmo的特点是纯JAVA实現、集群和HA实现相对简单、在发生宕机和其它故障时消息丢失率更低,具有良好的高可用架构及稳定性。其发展的代历史如下图所示,从2007年至今已发展超过10年。

消息存储架构:相关文件有三种,CommitLog、ConsumeQueue、IndexFile

GTS-SRE周刊 || 5月集强势发布

消息刷盘:分为同步刷盘和异步刷盘,同步刷盘使用于金融业务应用,异步刷盘读写延迟降低,可提高MQ的性能和吞吐量

服务案例:SRE团队全力保障多地健康码顺利上线(下)

阿里SRE团队与时间赛跑,火速立项、部署江苏“苏城码”,解决江苏大量外来人口复工的管理难题,提升人员流动速度。搭建高可用高可靠系统平台,解决上海随申码的发码查码导致的系统负载问题。

阿里云SRE技术期刊重点内容概览- 2020年5月第3周

本周产品:铜雀:阿里云智能巡检管家

作为云平台告警信息与监控的统一门户,铜雀专注于智能化巡检及问题诊断,是TAM和驻场服务团队日常工作中的首要工具。铜雀主要为客户、业务应用开发商、TAM、驻场提供以下服务:

客户:了解云平台的健康状况和资源使用情况,通过对历史发展趋势的分析,发现可能的资源缺口和扩容需求。

业务应用开发商:通过铜雀分析可能导致线上应用问题的原因或提供排查方向TAM:通过铜雀发现云平台或业务应用所存在的风脸和问题,并跟进处理。

驻场:使用铜雀简化日常的运维类工作,井提升工作效率。比如:一键巡检、驻场日报自动生成、白屏化分析工具等。

GTS-SRE周刊 || 5月集强势发布

本周实践:阿里高可用架构建设实践经验

随着业务在线化互联网化的高速发展,企业对核心业务系统的稳定性、可靠性、有效性、业务连续性等有了更高的要求。采用高可用系统架构支持重要系统、为关键业务提供7x24的不间斷服务,已经成为众多企业保障业务稳定、持续运转的主要选择。阿里巴巴在多年双11高井发、高可用和高客户体验要求背景下积累了相应的技术体系,本文将依据高井发用户、突发高流量场景下的真实案例。

原有业务痛点:

非常复杂的服务端:通常从客户端到达服务端会涉及到的关键节点有CDN、动态加速高防、应用防火墙、4/7层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等,整个链路都面临着不确定性,这其中任何一个节点出现问题都会导致服务不可用。

缺乏提前规划的服务能力:如果企业没有对自己的服务能力进行提前规划,没有提前做好关键节点的规划,对线上的应急措施如弹性扩容、线上防护、熔断降级等都不具备,那么在面对突发问题时,就很难保证核心接口能够稳定对外服务。

阿里云SRE技术期刊重点内容概览- 2020年5月第4周

本周技术:浅谈异地多活及阿里云容灾经验分享

异地多活,英文Mut- Site High Availability,顾名思义就是分布在异地多个站点同时对外提供服务。与传统灾备最主要的区别是“多活”里所有站点都是同时在对外提供服务的,具体有以下几点不同:

应急状态有风险:传统的灾备中心平时不提供服务,关键时刻无法确定切换到灾备中心是否可以切换成功。

成本高:传统的灾备中心平时不提供服务,整个灾备资源会处于浪费状态,成本比较高。

地域资源瓶颈:传统的灾备中心平时不提供服务,所以平时提供服务的数据中心还停留在单地域,当业务体量大到一定程度时,这种模式无法解决单地域资源瓶颈的问题。

因为通过传统的灾备手段无法解决上述问题,阿里巴巴经过多年研究,成功在2013年的双十一实现了“丝般柔顺”的用户体验后,“异地多活”这项基础技术首次在业界亮相。

GTS-SRE周刊 || 5月集强势发布

结语

阿里云的5RE团队自从诞生之日起,就被予了"服务"于客户的基因,帮助广大阿里云企业客户上云、用好云,让客户云上业务运行更加稳定可靠。从服务的视角,团队重新定义了SRE的内涵( Service Reliability Engineering):致力成为一个以技术为基础、面向服务、保业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。

全新的定义承接了全新的使命,我们也深刻践行着阿里巴巴集团toB的企业服务初心,同时陪伴着伙伴和客户一起成长。

GTS-SRE周刊 || 5月集强势发布

扫码进钉群 下载周刊集,并获取一手阿里云SRE资料

关注 “阿里云文档” 云栖号,第一时间了解阿里云最全最新资料内容吧!

继续阅读