GTS-SRE周刊 || 5月集强势发布

前言

阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立，由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成，是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队，也是阿里集团高可用基础技术核心缔造团队，为集团设计和建设了异地多活、大促容量规划、限流降级、开关预案、流量调度、故障演练、资损防控等高可用架构基础设施，深度参与支持了集团历年双11大促的技术保障工作，我们期望通过SRE周刊：

- 将阿里云智能最先进的产品、运维技术传递给不同行业的客户和伙伴，帮助大家更全面深入地了解阿里云产品。

- 促进技术上互相交流，取长补短，打造阿里云产品运维人社区论坛，共同促进阿里云产品的不断完善。

点击加入社区技术论坛，随时交流技术难题

阿里云SRE技术期刊重点内容概览- 2020年5月第1周

本周封神榜：智能运维服务助手

封神榜是SRE团队提供的从业务、产品、安全、故障四个维度对项目进行全方位监控的运维服务工具，可实现为不同关注点的客户提供问题、故障、性能、容量、优化建议等运维服务内容推送。

功能定位：稳定性是基础、增强运维服务、补全监控短板。

服务目标：业务优化、云平台监控、客户服务、故障响应。

应用实践：MQ实例监控、安全事件告警。

服务案例：SRE团队全力保障多地健康码顺利上线（上）

2020年初，新冠肺炎疫情爆发，阿里巴巴配合多地政府开发健康码，实现数字化防疫。SRE团队协助完成各类资源准备、业务压测、业务优化以及持续性数据监控等工作，保证了健康码顺利上线和运作。

阿里云SRE技术期刊重点内容概览- 2020年5月第2周

本周技术：RocketMQ消息存储技术

RocketMQ是阿里开源的分布式消息中间件，跟其它中间件相比， Rocketmo的特点是纯JAVA实現、集群和HA实现相对简单、在发生宕机和其它故障时消息丢失率更低，具有良好的高可用架构及稳定性。其发展的代历史如下图所示，从2007年至今已发展超过10年。

消息存储架构：相关文件有三种，CommitLog、ConsumeQueue、IndexFile

消息刷盘：分为同步刷盘和异步刷盘，同步刷盘使用于金融业务应用，异步刷盘读写延迟降低，可提高MQ的性能和吞吐量

服务案例：SRE团队全力保障多地健康码顺利上线（下）

阿里SRE团队与时间赛跑，火速立项、部署江苏“苏城码”，解决江苏大量外来人口复工的管理难题，提升人员流动速度。搭建高可用高可靠系统平台，解决上海随申码的发码查码导致的系统负载问题。

阿里云SRE技术期刊重点内容概览- 2020年5月第3周

本周产品：铜雀：阿里云智能巡检管家

作为云平台告警信息与监控的统一门户，铜雀专注于智能化巡检及问题诊断，是TAM和驻场服务团队日常工作中的首要工具。铜雀主要为客户、业务应用开发商、TAM、驻场提供以下服务：

客户：了解云平台的健康状况和资源使用情况，通过对历史发展趋势的分析，发现可能的资源缺口和扩容需求。

业务应用开发商：通过铜雀分析可能导致线上应用问题的原因或提供排查方向TAM:通过铜雀发现云平台或业务应用所存在的风脸和问题，并跟进处理。

驻场：使用铜雀简化日常的运维类工作，井提升工作效率。比如:一键巡检、驻场日报自动生成、白屏化分析工具等。

本周实践：阿里高可用架构建设实践经验

随着业务在线化互联网化的高速发展，企业对核心业务系统的稳定性、可靠性、有效性、业务连续性等有了更高的要求。采用高可用系统架构支持重要系统、为关键业务提供7x24的不间斷服务，已经成为众多企业保障业务稳定、持续运转的主要选择。阿里巴巴在多年双11高井发、高可用和高客户体验要求背景下积累了相应的技术体系，本文将依据高井发用户、突发高流量场景下的真实案例。

原有业务痛点：

非常复杂的服务端：通常从客户端到达服务端会涉及到的关键节点有CDN、动态加速高防、应用防火墙、4/7层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等，整个链路都面临着不确定性，这其中任何一个节点出现问题都会导致服务不可用。

缺乏提前规划的服务能力：如果企业没有对自己的服务能力进行提前规划，没有提前做好关键节点的规划，对线上的应急措施如弹性扩容、线上防护、熔断降级等都不具备，那么在面对突发问题时，就很难保证核心接口能够稳定对外服务。

阿里云SRE技术期刊重点内容概览- 2020年5月第4周

本周技术：浅谈异地多活及阿里云容灾经验分享

异地多活，英文Mut- Site High Availability，顾名思义就是分布在异地多个站点同时对外提供服务。与传统灾备最主要的区别是“多活”里所有站点都是同时在对外提供服务的，具体有以下几点不同:

应急状态有风险：传统的灾备中心平时不提供服务，关键时刻无法确定切换到灾备中心是否可以切换成功。

成本高：传统的灾备中心平时不提供服务，整个灾备资源会处于浪费状态，成本比较高。

地域资源瓶颈：传统的灾备中心平时不提供服务，所以平时提供服务的数据中心还停留在单地域，当业务体量大到一定程度时，这种模式无法解决单地域资源瓶颈的问题。

因为通过传统的灾备手段无法解决上述问题，阿里巴巴经过多年研究，成功在2013年的双十一实现了“丝般柔顺”的用户体验后，“异地多活”这项基础技术首次在业界亮相。

结语

阿里云的5RE团队自从诞生之日起，就被予了＂服务＂于客户的基因，帮助广大阿里云企业客户上云、用好云，让客户云上业务运行更加稳定可靠。从服务的视角，团队重新定义了SRE的内涵( Service Reliability Engineering)：致力成为一个以技术为基础、面向服务、保业务系统高可用的工程师团队；提供专业、体系化的SRE服务，帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统，提升业务稳定性。

全新的定义承接了全新的使命，我们也深刻践行着阿里巴巴集团toB的企业服务初心，同时陪伴着伙伴和客户一起成长。

扫码进钉群下载周刊集，并获取一手阿里云SRE资料

GTS-SRE周刊 || 5月集强势发布

前言

- 将阿里云智能最先进的产品、运维技术传递给不同行业的客户和伙伴，帮助大家更全面深入地了解阿里云产品。

- 促进技术上互相交流，取长补短，打造阿里云产品运维人社区论坛，共同促进阿里云产品的不断完善。

阿里云SRE技术期刊重点内容概览- 2020年5月第1周

本周封神榜：智能运维服务助手

服务案例：SRE团队全力保障多地健康码顺利上线（上）

阿里云SRE技术期刊重点内容概览- 2020年5月第2周

本周技术：RocketMQ消息存储技术

服务案例：SRE团队全力保障多地健康码顺利上线（下）

阿里云SRE技术期刊重点内容概览- 2020年5月第3周

本周产品：铜雀：阿里云智能巡检管家

本周实践：阿里高可用架构建设实践经验

阿里云SRE技术期刊重点内容概览- 2020年5月第4周

本周技术：浅谈异地多活及阿里云容灾经验分享

结语

关注 “阿里云文档” 云栖号，第一时间了解阿里云最全最新资料内容吧！

继续阅读

LINUX常见命令集锦

windows开始→运行→输入的命令集锦 winver---------检查Windows版本 w

网络空间安全中高职业院校职技能大赛——Telnet弱口令渗透测试

BMP文件结构及图像每行字节计算方法

磁盘结构及在Linux中的命名

更改LYNC SIP地址

Storm编译打包过程中遇到的一些问题及解决方法

ansible配置文件说明及ad hoc命令

vsftpd dead but subsys locked 的解决方法

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

Linxu常用命令技巧汇总

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

nginx 安装错误信息解决

Ambari介绍和架构原理

Bugku-WEB-web33