天天看点

Drbd+Pacemaker实现高可用

What is Pacemaker?

前提:

1)本配置共有两个测试节点,分别node1.a.org和node2.a.org,相的IP地址分别为192.168.0.5和192.168.0.6;

2)node1和node2两个节点已经配置好了基于openais/corosync的集群;且node1和node2也已经配置好了Primary/Secondary模型的drbd设备/dev/drbd0,且对应的资源名称为web;如果您此处的配置有所不同,请确保后面的命令中使用到时与您的配置修改此些信息与您所需要的配置保持一致;

3)系统为rhel5.4,x86平台;

1、查看当前集群的配置信息,确保已经配置全局属性参数为两节点集群所适用:

<code># crm configure show</code>

<code>node node1.a.org</code>

<code>node node2.a.org</code>

<code>property $</code><code>id</code><code>=</code><code>"cib-bootstrap-options"</code> <code>\</code>

<code> </code><code>dc</code><code>-version=</code><code>"1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87"</code> <code>\</code>

<code> </code><code>cluster-infrastructure=</code><code>"openais"</code> <code>\</code>

<code> </code><code>expected-quorum-votes=</code><code>"2"</code> <code>\</code>

<code> </code><code>stonith-enabled=</code><code>"false"</code> <code>\</code>

<code> </code><code>last-lrm-refresh=</code><code>"1308059765"</code> <code>\</code>

<code> </code><code>no-quorum-policy=</code><code>"ignore"</code>

在如上输出的信息中,请确保有stonith-enabled和no-quorum-policy出现且其值与如上输出信息中相同。否则,可以分别使用如下命令进行配置:

<code># crm configure property stonith-enabled=false</code>

<code># crm configure property no-quorum-policy=ignore</code>

2、将已经配置好的drbd设备/dev/drbd0定义为集群服务;

1)按照集群服务的要求,首先确保两个节点上的drbd服务已经停止,且不会随系统启动而自动启动:

<code># drbd-overview</code>

<code> </code><code>0:web Unconfigured . . . .</code>

<code># chkconfig drbd off</code>

2)配置drbd为集群资源:

提供drbd的RA目前由OCF归类为linbit,其路径为/usr/lib/ocf/resource.d/linbit/drbd。我们可以使用如下命令来查看此RA及RA的meta信息:

<code># crm ra classes</code>

<code>heartbeat</code>

<code>lsb</code>

<code>ocf / heartbeat linbit pacemaker</code>

<code>stonith</code>

<code># crm ra list ocf linbit</code>

<code>drbd</code>

<code># crm ra info ocf:linbit:drbd</code>

<code>This resource agent manages a DRBD resource</code>

<code>as a master</code><code>/slave</code> <code>resource. DRBD is a shared-nothing replicated storage</code>

<code>device. (ocf:linbit:drbd)</code>

<code>Master</code><code>/Slave</code> <code>OCF Resource Agent </code><code>for</code> <code>DRBD</code>

<code>Parameters (* denotes required, [] the default):</code>

<code>drbd_resource* (string): drbd resource name</code>

<code> </code><code>The name of the drbd resource from the drbd.conf </code><code>file</code><code>.</code>

<code>drbdconf (string, [</code><code>/etc/drbd</code><code>.conf]): Path to drbd.conf</code>

<code> </code><code>Full path to the drbd.conf </code><code>file</code><code>.</code>

<code>Operations' defaults (advisory minimum):</code>

<code> </code><code>start timeout=240</code>

<code> </code><code>promote timeout=90</code>

<code> </code><code>demote timeout=90</code>

<code> </code><code>notify timeout=90</code>

<code> </code><code>stop timeout=100</code>

<code> </code><code>monitor_Slave interval=20 timeout=20 start-delay=1m</code>

<code> </code><code>monitor_Master interval=10 timeout=20 start-delay=1m</code>

drbd需要同时运行在两个节点上,但只能有一个节点(primary/secondary模型)是Master,而另一个节点为Slave;因此,它是一种比较特殊的集群资源,其资源类型为多态(Multi-state)clone类型,即主机节点有Master和Slave之分,且要求服务刚启动时两个节点都处于slave状态。

<code>[root@node1 ~]</code><code># crm</code>

<code>crm(live)</code><code># configure</code>

<code>crm(live)configure</code><code># primitive webdrbd ocf:linbit:drbd params drbd_resource=web op monitor role=Master interval=50s timeout=30s op monitor role=Slave interval=60s timeout=30s</code>

<code>crm(live)configure</code><code># master MS_Webdrbd webdrbd meta master-max="1" master-node-max="1" clone-max="2" clone-node-max="1" notify="true"</code>

<code>crm(live)configure</code><code># show webdrbd</code>

<code>primitive webdrbd ocf:linbit:drbd \</code>

<code> </code><code>params drbd_resource=</code><code>"web"</code> <code>\</code>

<code> </code><code>op</code> <code>monitor interval=</code><code>"15s"</code>

<code>crm(live)configure</code><code># show MS_Webdrbd</code>

<code>ms MS_Webdrbd webdrbd \</code>

<code> </code><code>meta master-max=</code><code>"1"</code> <code>master-node-max=</code><code>"1"</code> <code>clone-max=</code><code>"2"</code> <code>clone-node-max=</code><code>"1"</code> <code>notify=</code><code>"true"</code>

<code>crm(live)configure</code><code># verify</code>

<code>crm(live)configure</code><code># commit</code>

查看当前集群运行状态:

<code># crm status</code>

<code>============</code>

<code>Last updated: Fri Jun 17 06:24:03 2011</code>

<code>Stack: openais</code>

<code>Current DC: node2.a.org - partition with quorum</code>

<code>Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87</code>

<code>2 Nodes configured, 2 expected votes</code>

<code>1 Resources configured.</code>

<code>Online: [ node2.a.org node1.a.org ]</code>

<code> </code><code>Master</code><code>/Slave</code> <code>Set: MS_Webdrbd</code>

<code> </code><code>Masters: [ node2.a.org ]</code>

<code> </code><code>Slaves: [ node1.a.org ]</code>

由上面的信息可以看出此时的drbd服务的Primary节点为node2.a.org,Secondary节点为node1.a.org。当然,也可以在node2上使用如下命令验正当前主机是否已经成为web资源的Primary节点:

<code># drbdadm role web</code>

<code>Primary</code><code>/Secondary</code>

3)为Primary节点上的web资源创建自动挂载的集群服务

MS_Webdrbd的Master节点即为drbd服务web资源的Primary节点,此节点的设备/dev/drbd0可以挂载使用,且在某集群服务的应用当中也需要能够实现自动挂载。假设我们这里的web资源是为Web服务器集群提供网页文件的共享文件系统,其需要挂载至/www(此目录需要在两个节点都已经建立完成)目录。

此外,此自动挂载的集群资源需要运行于drbd服务的Master节点上,并且只能在drbd服务将某节点设置为Primary以后方可启动。因此,还需要为这两个资源建立排列约束和顺序约束。

<code># crm</code>

<code>crm(live)configure</code><code># primitive WebFS ocf:heartbeat:Filesystem params device="/dev/drbd0" directory="/www" fstype="ext3"</code>

<code>crm(live)configure</code><code># colocation WebFS_on_MS_webdrbd inf: WebFS MS_Webdrbd:Master</code>

<code>crm(live)configure</code><code># order WebFS_after_MS_Webdrbd inf: MS_Webdrbd:promote WebFS:start</code>

查看集群中资源的运行状态:

<code> </code><code>crm status</code>

<code>Last updated: Fri Jun 17 06:26:03 2011</code>

<code>2 Resources configured.</code>

<code> </code><code>WebFS (ocf::heartbeat:Filesystem): Started node2.a.org</code>

由上面的信息可以发现,此时WebFS运行的节点和drbd服务的Primary节点均为node2.a.org;我们在node2上复制一些文件至/www目录(挂载点),而后在故障故障转移后查看node1的/www目录下是否存在这些文件。

<code># cp /etc/rc./rc.sysinit /www</code>

下面我们模拟node2节点故障,看此些资源可否正确转移至node1。

以下命令在Node2上执行:

<code># crm node standby</code>

<code>Last updated: Fri Jun 17 06:27:03 2011</code>

<code>Node node2.a.org: standby</code>

<code>Online: [ node1.a.org ]</code>

<code> </code><code>Masters: [ node1.a.org ]</code>

<code> </code><code>Stopped: [ webdrbd:0 ]</code>

<code> </code><code>WebFS (ocf::heartbeat:Filesystem): Started node1.a.org</code>

由上面的信息可以推断出,node2已经转入standby模式,其drbd服务已经停止,但故障转移已经完成,所有资源已经正常转移至node1。

在node1可以看到在node2作为primary节点时产生的保存至/www目录中的数据,在node1上均存在一份拷贝。

让node2重新上线:

<code># crm node online</code>

<code>[root@node2 ~]# crm status</code>

<code>Last updated: Fri Jun 17 06:30:05 2011</code>

<code> </code><code>Slaves: [ node2.a.org ]</code>

<code></code>

本文转自 SoulMio 51CTO博客,原文链接:http://blog.51cto.com/bovin/1861153,如需转载请自行联系原作者

继续阅读