Ceph实验室：第五课：Ceph运维之换盘

2021-11-07 18:59:13

在ceph集群里，磁盘出故障是不可避免，所以替换故障磁盘成为ceph日常运维不断重复的任务。本课程演示如何替换一个故障盘。

虽然osd.1的服务已停止，然而他任然被标记为in（集群中）状态。只要他的状态还是in，ceph集群就不会为他触发数据恢复。默认情况下，ceph集群需要5分钟来将一个down状态的磁盘标记为out状态，然后开始数据恢复。我们可以手工将故障osd标记为out。一旦该osd被标记为out，ceph集群会为该osd上的pg启动恢复过程。

当某个pg对应的osd

set中有一个osd被标记为down时(假如是primary被标记为down，则某个replica会成为新的primary，并处理所有读写

object请求)，则该pg处于active+degraded状态，也就是当前pg有效的副本数是n-1。

过了5秒之后，假如还是无法连接该osd，则它被标记为out，ceph会重新计算pg到osd set的映射(当有新的osd加入到集群时，也会重新计算所有pg到osd set的映射)，以此保证pg的有效副本数是n。

从ceph crush map中移除

删除该osd的秘钥

从ceph集群中删除该osd

拔掉故障盘，插入新磁盘......................

一旦osd加入到集群，ceph会执行回填backfilling操作，他会将pg从第二osd上移到这个新的osd上。

https://www.ustack.com/blog/ceph_infra/

Ceph实验室：第五课：Ceph运维之换盘

继续阅读

HDFS命令行工具

Linux下ssh秘钥方式登录远程服务器

Linux命令集锦：scp命令一、语法二、实例

docker 命令集锦

LINUX常见命令集锦

windows开始→运行→输入的命令集锦 winver---------检查Windows版本 w

更改LYNC SIP地址

Storm编译打包过程中遇到的一些问题及解决方法

ansible配置文件说明及ad hoc命令

vsftpd dead but subsys locked 的解决方法

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

Linxu常用命令技巧汇总

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

nginx 安装错误信息解决

Ambari介绍和架构原理