在上周举办的2016 AWS re:invent上,AWS副总裁兼杰出工程师James Hamilton首次对外界大量披露了AWS亚马逊云的基础设施建设及工程化细节,其中有大量数据也是首次对外发布。小编特别听译了James的这部分演讲,同时把他的全套PPT拍下来,供粉丝们收藏!
以下为James Hamilton演讲翻译:
首先看一下这个数字:如今的AWS亚马逊云在全球部署的服务器数据,相当于每天都能支持一个2005年的亚马逊网站,而在那时亚马逊网站还是一个84.9亿美元的企业。
所以,仅看到这个数字,你就可以先把那些所谓创新放到一边,而考虑如何把庞大的零部件制造出来,再运送到服务器厂商那里,服务器厂商再把这些零部件组装起来,通过测试后再打包发给供应链上的运货公司,运货公司再把这些服务器运送到相应的数据中心里,而数据中心则需要相应的电源供应、机架供应、网络供应等,技术人员再把这些服务器安装起来,然后第二天再同样流程再来一遍。
就在几年,在亚马逊一想到这样体量的硬件安装与部署,就相当于是一个登月工程,几乎在当时是无法想象的。今天,AWS的服务器容量可以每天都装下一个财富500强公司服务器容量。
弹性是新常态(Elastic is the new norm)。亚马逊技术团队根据2015年到2016年亚马逊在顶峰时服务器用量而绘制了一张简单的示意图,图中显示在2016年顶峰时期亚马逊启用了数十万台虚拟服务器,而当顶峰时期过后又把这些虚拟服务器收回,这就是弹性计算。正因为有了这样规模和能力的弹性计算,全球的企业才能基于云服务而创造新的业务营收、实验新的业务想法、快速加大对可行新业务的计算资源投入等等,而这一切都在极为低廉的成本下实现。
数十万台服务器是一个什么样的概念?它相当于一个中等规模的数据中心。所以前述过程相当于在很短时间里建立一个中等规模的数据中心,使用几周后再撤销这个数据中心。而对于企业来说,如果按照顶峰时期的需求规模来建自有数据中心,相当于过度供应了服务器容量。因为企业自建数据中心有一个周期,这里面有复杂的采购、调试、安装和上线的过程,而且成本可能达到2亿美金。于是,一个2亿美元的数据中心自建成后的大部分时间都是闲置的,只有顶峰时才可能用上所有的服务器资源。
AWS目前在全球有14个数据中心区域,2017年还将增加4个,到时就将有18个数据中心区域。此外,AWS目前在全球有68个CloudFront PoP(Point of Presence,小编认为可以理解为68个具体数据中心位置分布在全球)。
那么,AWS在全球有自己的云基础设施吗?或是大家通常理解的私有云部署?可以理解为,AWS在全球部署了庞大的自有基础设施资源,而且全部由AWS自己管理。而不是像其它云服务商那样在全球找了很多节点的供应商,再通过管理复杂的供应商网络来交付一个统一的云服务。因为不同的供应商都有各自的系统、标准、流程等等,想要管理这样一个复杂的全球网络而同时为企业交付一致的用户体验,难度之大可想而之。
AWS则不一样,因为全都是自己的资源,再统一管理、统一运营和统一交付,整体效率、质量和用户体验都要好很多。这样就避免了不同供应商之间复杂的合同谈判,而且很多情况下供应商都会试图对自己的资源进行管控以达到各自最大化的商业利益。
AWS在全球部署了100GB高速以太网,在所有的数据中心区域都是100GB网络,同时还有更多并行的100GB级网络用于辅助数据传输。这样整体部署的网络成本相当之高,可以说是不惜血本,但从保证网络质量来说却是最正确的做法。这些网络有自建的、有租用的、有经过海底的暗光纤(Dark Fiber)等,总体由AWS运营管理以确保网络服务质量。
以夏威夷跨太平洋光纤线缆为例,这是AWS的最新网络工程。该工程预计将建成长达14000公里的海底线缆以连接新西兰、澳大利亚、夏威夷和俄勒岗等地,最深处为海平面以下6000米,该项目于2016年11月底动工。这里面有很多巨大的工程挑战,比如信噪比(SNR)就是一个问题,这就需要在海底每60-80公里部署信号中继器,这些中继器都需要电力供应,而且要在20年内都无人维修。
众所周知,光纤线缆里有大量的铜包装材料,这些铜包装材料裹住了最里面的光纤,而这些铜制材料需要在大量中继器间不间断传输电流以中继信号,怎么做才是最佳性价比方式?一种方式是需要大量的电力导体,另一种方式是传送电压。实际上,在地面上的长距离电力传送也使用了同样的技巧。AWS即将部署的海底线缆的每个中继节点里,都含有两个非常小的导体以传送高压直流电,相应电压在正负1万伏之间。一旦其中一个导体因为某种原因而无法正常工作,比如低压端的导体失效的话,可以把高压端的导体电压提升到2万伏,然后使用海水作为备用“线缆”,这样可以同样保持电压差而不影响线缆工作直到修复完成。
此外,该夏威夷光缆工程在每对光纤上通过100个光波传送100GB数据,可以在同一光纤上运行多个光波,这样就可用6个光纤传送30TB数据。
再来看AWS的实际数据中心区域。每个数据中心区域都至少有两个可用区域(AZ,Available Zone),而一个AZ可用区域即意味着一个独立的大楼。实际上,大部分AWS数据中心区域都有三个AZ,新建的数据中心区域都配备了三个AZ。每个数据中心区域还有两个传送中心(Transit Center),两个传送中心互为冗余,它们的任务是为所属数据中心区域和外部提供连接和交换功能。
于是,在每个可用区域内部需要建立互连光纤,在不同可用区域之间需要建立互连光纤,在不同传送中心之间还要建立光线连接,所以在每个数据中心区域至少要建立126段光纤连接,包括242,472股光纤,AWS也是首家在数据中心区域部署3456高光芯线缆的云服务商。
再细看每一个可用区域。每一个可用区域至少有一个数据中心,有的可用区域容纳了8个数据中心,在可用区域内有大量冗余网络,有的可用区域的服务器数量高达30万台规模。
每一个数据中心的规模是每5万到8万台服务器,相应需要25-32兆瓦的电力,如今AWS的很多数据中心都是32兆瓦的规模。大型数据中心的好处在于成本的规模效应,但规模过大后又会带来灾备的难度,因此AWS目前选择是25-32兆瓦的规模。
在网络硬件设备方面,AWS为了避免在传统网络硬件设备的高额投资,而定制研发了自己的路由器,其中包括AWS自行开发的网络交换协议等。而定制研发网络硬件设备的最大好处,其实还是网络的稳定性。传统网络硬件设备供应商往往要向硬件设备里增加很多复杂的高级功能以提高产品的销售价格,但这样做的问题在于加大了网络硬件设备的管理难度,甚至达到不可管理的程度。而AWS定制开发的网络路由器则大幅简化了设备复杂性,相应极大提升了设备的可靠性。
AWS定制开发的路由器为25GB带宽,而业界标准不是10GB就是40GB,为什么?一个光波可载10GB数据(小编注:这里指的应该是陆上光缆),40GB就是4个光波,成本是10GB的4倍。而一个光波也可以载25GB数据,成本相对10GB略高一些,但几乎价格差不多。于是,两个光波就是50GB带宽,但成本相对于40GB带宽来说,却低了很多。
AWS还在Broadcom Tomahawk ASIC芯片基础上定制了自己的网络路由器集成电路ASIC,该ASIC集成电路芯片有70亿个晶体管,128个接口提供25GB带宽。而AWS选择这款ASIC芯片的原因还在于其生态系统,很多供应商都提供支持这款芯片设计的生产制造,其中包括Cavium、Mellanox、Broadcom、Innovium、Barefoot和Marvell等。
在软件定义网络方面,AWS自EC2开始就采用了软件定义网络SDN。2012年开始,AWS把网络通信中的重复性工作转换到定制的10GB网络集线器(NIC)上完成,以及基于AWS软件的定制处理器。而把重复性网络通信工作从服务器上卸载到网络硬件设备的好处,还在于大幅降低的网络时延,网络时延从毫秒级进入到了纳秒级甚至微秒级。
除了定制路由器等网络硬件设备外,AWS还开发自己的半导体芯片。对,你知道AWS也在半导体行业吗?Amazon Annapurna ASIC芯片是第二代高性能网络芯片,内含数十亿晶体管,由AWS主导该芯片的硅片、软件和硬件设计,并按照AWS的创新速度进行研发。(小编注:实际上亚马逊在2015年1月以3.7亿左右美元的价格收购了以色列半导体公司Annapurna Labs,就是为自己研发制造半导体芯片。)如今,每一个AWS服务器里都有至少一个这样的芯片。
AWS在数据中心硬件方面的创新还包括定制的成套配电柜,主要是修正了电柜的firmware固件,以避免类似2013年Super Bowl停电事故。在那次事故中,一个检测元件发现了电流异常,于是按预先设置的流程切断了电力供应,从而导致2013年Super Bowl长达半个小时的停电事件。AWS在保障数据中心的电力供应方面还进行了多种创新,以确保能安然渡过类似2013年Super Bowl式的黑天鹅事件。
在定制存储设备方面,2014年AWS介绍了一个机架中880个磁盘的定制存储设备,接下来AWS在一个42U机柜中装入了1100个磁盘,当时的容量为8.8PB,而如果按照今天的磁盘规格就相当于11PB的数据。
在定制计算服务器方面,AWS定制的1RU服务器里空了一半的空间,用于电力及散热。AWS发现由于散热及电力损耗,服务器的密度与工作效率并不匹配。而在AWS定制的服务器设计里,电源装置组件PSU及电压调节VRD的效率都大于90%。因此,AWS数据中心的PUE水平在1.12-1.15之间。
AWS承诺100%绿色可循环能源。2015年4月AWS达到25%的水平,现在达到了40%的水平,2016年底将达到45%的水平,2017年底将达50%的水平。AWS总共将把907兆瓦的新可循环能源带到线上,每年实现260万兆瓦小时的可循环能源。