OceanBase几个常见问题及排查思路

第一种情况：某一台observer挂掉，数据库异常

OceanBase采用的的是多副本集群模式，在不同的zone里面有不同的server，每个zone里面的server是互相备份的。上层是通过slb来分发所以，当其中一台server挂掉的时候，会对业务产生什么影响呢？

制造现象：50用户并发某查询交易时，kill掉某一台（业务所在的observer跟业务不再的observer）observer。

登录到业务所在的ob服务器执行以下命令：

预期影响：TPS先掉为0，1分钟内恢复正常，存在业务失败。

监控发现：TPS先掉为0，40秒后恢复正常。失败238笔。

登录到业务不在的observer执行以下命令：

预期影响：对系统没有影响。

监控发现：交易TPS和响应时间无明显变化

恢复手段：查看9台observer的进程，找出挂掉的observer，并使用admin用户将observer启动。执行命令如下：

2ã服务器层面占用cpu，数据库异常

制造现象：将业务所在的observer上的服务器cpu打满。

登录到业务所在的observer上的服务器运行脚本，脚本内容如下：

预期影响：TPS下降，并且服务器cpu利用率高。

监控发现：TPS由700下降至550，OB CPU利用率90%，保持平稳

恢复手段：可以使用Linux命令找出当前数据库占用CPU较多的进程，判断是否重要，将其杀死

3、服务器层面打满磁盘，数据库异常演练

制造现象：将observer所在服务器的磁盘写满

登录到observer服务器执行命令：

预期影响：TPS降低为0交易持续报错。

监控发现：TPS由700下降为0，磁盘满后交易持续报错共失败3014笔，交易性能大幅波动

恢复手段：发生这种的影响主要来源于两个地方，如果这台机器上只装了ob以及ob相关的组件的话，写满磁盘要么是数据文件，要么是日志文件，如果是数据文件，那么没办，只能扩充资源，如果是日志文件，找到对应目录，删除多余日志文件。

4、数据库中存在并发大量烂sql，数据库异常

制造现象：某正常业务正常运行，这时候并发一个sql比较烂的业务。

预期影响：正常业务TPS下降，并且可能存在失败现象。

监控发现：批量发起1000个数据库并发操作，交易TPS立即由700下降至150，同时批量查询超时失败。

恢复手段：sql烂是数据库的通病，我们可以根据show processlist;查看当前数据库当前正在执行的sql，找出执行时间比较久的。然后对其优化，然后根据OceanBase自带的视图：gv$sql,gv$sql_audit来看数据库之前执行过什么的慢sql对其优化。

5、业务突然增大，并且扩容observer，数据库异常

制造现象：某业务突然增加50用户量。之后调整该租户的cup：alter resource pool xxx_poll unit C12_unit;。

预期影响：并发数据量会产生TPS以及响应时间的上涨，扩充资源会发生抖动，TPS上升，RT下降

监控发现：增加用户TPS由700上升至800，交易响应时间由0.070上升至0.095秒。扩容资源发生一点点抖动，TPS恢复至800，RT时间恢复到0.095秒。

恢复手段：无

6、模拟数据库服务器网络故障。

制造现象：将observer的2882跟2881端口禁掉

执行命令：

预期现象：TPS会出先下降，然后恢复正常，交易会报错。

监控发现：TPS先下降一半，1分钟后恢复正常，交易报错持续4分钟。

恢复手段：

OceanBase几个常见问题及排查思路

继续阅读

MySQL的4种隔离级别？出现问题

Ubuntu Linux下Apache的配置文件

ACS基本配置-权限等级管理

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

NOSQL安全攻击

mybatis_入门程序Mybatis入门

samba服务器的功能

登录plsql 报错 the account is locked --用户被锁

sqlServer根据经纬查距离

【Linux】UDP广播报文接收速率问题

SequoiaDB巨杉数据库C++驱动概述

Linux设备模型（中）之上层容器

PowerPC平台 Linux移植三