xmemcached 0.60 优化过程

2021-11-08 03:26:54

充分利用jprofile等工具观察性能瓶颈，才能对症下药，盲目的优化只是在浪费时间，并且效果可能恰恰相反

1、观察到countdownlatch.await占据最多cpu时间，一开始认为是由于jprofiler带来的影响，导致这个方法调用时间过长，从而忽略了这一点，导致后面走了不少弯路。实际上await方法占用50%的cpu，而网络层和序列化开销却比较低，这恰恰说明这两者的效率低下，没办法充分利用cpu时间，后来观察spymemcached的cpu占用情况，await占用的时间低于30％，优化后的结果也是如此。

2、因为没有深入理解这一点，我就盲目地开始优化，先从优化协议匹配算法开始，匹配bytebuffer一开始用简单匹配(o(m*n)复杂度），后来替代以kmp算法做匹配，想当然以为会更快，比较了两者效率之后才发现kmp的实现竟然比简单匹配慢了很多，马上google，得知比之kmp 算法效率高上几倍的有bm算法，马上实现之，果然比kmp和简单匹配都快。换了算法后，一测试，有提升，但很少，显然这不是热点。然后开始尝试改线程模型并测试，一开始想的是往上加线程，毕竟序列化是计算密集型，搞cpu个数的线程去发送command，调整读buffer的线程数，测试效率没有提升甚至有所降低，期间还测试了将协议处理改成批处理模式等，全部以失败告终。

3、此时才想起应该观察下spymemcached的cpu使用情况，才有了上面1点提到的观察，记的在测试yanf4j的echo server的时候，我发现读buffer线程数设为0的事情下比之1的效率更高，也就是说仅启动一个线程处理select、op_write和 op_read的事件，对于echo这样简单的任务来说是非常高效的，难道memcached也如此？立马设置为0并测试，果然提升很多，与 spymemcached的tps差距一下减小了2000多，进一步观察，由于xmemcached构建在yanf4j的基础上，为了分层清晰导致在发送和接收消息环节有很多冗余的操作，并且我还多启动了一个线程做command发送和优化get、set操作，如果能磨平这些差异，扩展yanf4j，避免了队列同步开销，这样也不用额外启动线程，效率是否更高呢？得益于yanf4j的模块化，修改工作顺利进行，最后的测试结果也证明了我的猜测，效率已经接近 spymemcached甚至超过。

文章转自庄周梦蝶，原文发布时间2009-03-06 <b></b>

xmemcached 0.60 优化过程

继续阅读

Codeforces 1417 D. Make Them Equal(思维+构造)

查找算法之二分查找查找算法之二分查找

查找算法学习之二分查找（Python版本）——BinarySearch

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希