天天看点

alinode-基于Node.js运行时的应用性能管理解决方案

本文主要由中生代技术群的技术讨论分享整理而成,作者张子发(花名:穆客)是阿里云node.js方面的专家。本文主要是alinode的开发过程总结,同时希望能造福广大node.js开发者。

今天分享node.js应用管理方面的心得,对node.js感兴趣的朋友可以关注下更多内容可以参考团队里面朴灵同学的《深入浅出node.js》,哈哈~

针对node.js应用管理,我们做了一套解决方案alinode,是针对node.js应用的性能管理方面,解决生产环境下node.js应用的深度监控和在线故障诊断

alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案

沿着提出问题->分析问题->解决问题的道路,针对上面的问题,我们做了alinode

alinode-基于Node.js运行时的应用性能管理解决方案

下面是一些具体的监控指标在实际应用中的用途

alinode-基于Node.js运行时的应用性能管理解决方案

node进程级别的内存数据,主要是内存使用状态和趋势, 到底是v8堆上内存用多了,还是堆外内存使用的多

如果内存不合理,优化的时候就有了方向

alinode-基于Node.js运行时的应用性能管理解决方案

这个是具体到v8上各个space的使用情况, 新生代/老生代/大对象空间之类的,也是给优化提供更精确的知道意义

alinode-基于Node.js运行时的应用性能管理解决方案

垃圾回收时间占比,因为在垃圾回收的时候,用户代码是停止的,所以这个数值过高,也是需要关注的

alinode-基于Node.js运行时的应用性能管理解决方案

这个是qps和timer状态和趋势,qps/rt堆业务是和重要的指标,timer本身是比较耗资源的,如果timer数量不正常,那么需要关注下,因为写代码的人应该知道具体使用timer的情况,所以异常还是比较容易判断的

alinode-基于Node.js运行时的应用性能管理解决方案

这个是系统级别(同一服务器上所有node进程总计)的一些load/qps/memory/cpu之类的信息。

下面是一些诊断的试图,在发现系统异常后,可以做堆快照, cpuprofiling来分析,因为代码逻辑错误之外的问题,基本上最终都归于内存和cpu的问题

alinode-基于Node.js运行时的应用性能管理解决方案

这个图是比较糊的, 用过chrome devtools的同学应该比较熟悉,就是分析cpuprofiling,有三种视图

alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案

与原生的node想必,我们在v8层面多输出了一些信息,所以看到代码是否被优化过

alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案

与原生的node想必,我们在v8层面多输出了一些信息,所以看到代码是否被优化过这两个图是堆快照的输出,基本上所有与内存相关的问题,仔细分析下都能知道到原因,可以直接把堆上占用内存排前几位的对象指出,展开后就能分析到对应到代码哪一部分了

alinode-基于Node.js运行时的应用性能管理解决方案

下面说几个解决问题的案例

一个是cpu相关的,某用户在高峰期,cpu会到80-90%的样子,找不出原因,profiling后,发现是这样的

alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案

处理函数降到了 24%不到一点,其实我们做开发的都知道,如果发现问题了,解决问题不是很难的事情

alinode-基于Node.js运行时的应用性能管理解决方案

这里有个很夸张的值,就是发现内存慢慢增长,大了没办法就重启;做了个堆快照后,发现是tlswrap这个独享有几万个...

原来是有个库封装的问题,本来一条链接就可以了,结果每次都创建一个新的。不释放...然后堆起来了

类似的问题很多

可能对群里面的大牛而言,这些错误会犯的比较少,可是对那些不是大牛的同学来讲,有时候还真难以避免这些问题,朴灵同学也犯过内存泄露的错误....因为有个数据库异常没有处理,然后堆起来,v8的堆就爆掉了

接下来分享下做alinode的过程中对v8的学习

alinode-基于Node.js运行时的应用性能管理解决方案

我们也不敢说理解了v8了,花了大部分时间在v8的学习上面

下面是一些学习笔记的例子,详细内容就不列了,只列了一些标题

alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案
alinode-基于Node.js运行时的应用性能管理解决方案

<a target="_blank" href="http://alinode.aliyun.com/">http://alinode.aliyun.com/</a>

q&amp;a

问题1:mysql在update某行的过程中,其他线程是不是不能读这一行了?等update完毕才能读?

这个不是我的领域哎... 这方面的专家谁帮忙回答下吧

问题2:张老师,你们在调优过程中是否对v8引擎作一些优化呢,是否可以举个案例?

这个也是学习v8的出发点, 其中一个优化是对arrayjoin的汇编改进了一下,原来只支持ascii,改进后也支持中文

问题3:看您介绍的很多都是宏观上的监测,在调优过程是否有发现像cve-2015-8027 denial of service vulnerability这样的nodejs漏洞呢?

安全漏洞倒是没有发现,发现了nodejs本身的一些性能问题,踢给社区了

问题4:nodejs的性能是否还有很大的潜力挖掘呢?

个人觉得不会有几倍的提升了, 小改进会有

我以前是做c开发的,开始非常难以接受js,后来做alinode的过程中发现,这个东西开发效率太高了,比c高了不知道多少倍,这个非常重要,尤其在一些创业公司中,开发效率的提高,然后还有无数的库的支持,当然这也带来了库本身参差不齐的问题,所以才需要应用性能管理

问题5:张老师,能否简单列举下node.js在ali的主要应用场景?

里面也有deadhorse同学在天猫那边的应用,基本上,阿里内部有几百个应用在用node.js了,但是核心交易系统没有用,那个是java的天下,哈哈

问题6 node.js 进程间缓存共享你们有用到吗?

我写过一个模块,用共享内存的,适合同一台服务器内不同进程间应用,但是没有用到线上,因为线上还要考虑不同服务器之间的问题,使用tair了

问题7 阿里的node主要是前段工程师在写还是服务器端工程师在写

都有,比例我还真的不清楚,估计现在还是前端多点吧。

问题8:慢请求调用链比较长这个怎么排查的

这个先把慢路径找出来,然后再想办法解决吧

问题9:为何选择了node.js,而不是erlang,go这些?除了开发效率和并发之类的考虑,技术选型上是否还有其他关注点?

这个貌似这个群还是另外一个群正在讨论,选node.js是因为有这方面的人才储备,国内一伙做node比较早的阿里有好几个,然后就是js语言与前端统一,沟通成本降低很多

                                                        中生代技术群微信公众号

alinode-基于Node.js运行时的应用性能管理解决方案

本文作者 张子发(花名:穆客) 阿里云专家