天天看点

在 RHEL 7.1 上设置 Mesos/Marathon 集群

<a target="_blank"></a>

mesos 是一套分布式集群管理器,旨在通过以动态方式于不同任务之间共享资源的方式改进资源使用率。mesos 提供一种统一化资源视角,其涵盖全部集群节点,并能够以无缝化方式利用类似于单一计算机内操作系统内核的方式实现资源访问。因此,mesos 亦被称为数据中心的内核机制。通过使用 mesos,大家可以构建起数据中心应用,而且 mesos 的主要组件亦可作为一种可扩展的两段式调度工具。

以下为 mesos 集群管理器中的各关键性组件:

主节点:负责协调全部集群操作的集群管理器。多个主节点可同时存在以实现高可用性。

从节点(亦被称为节点):任务运行所在的各集群成员。

框架:运行在集群之上的实际任务。目前存在多种框架,允许大家将一系列应用程序及服务组合部署在 mesos 集群管理器之上。

以下章节将探讨如何利用 marathon 框架将应用程序与服务部署在 mesos 之上。

以下列出了 ibm powerpc little endian(ppc64le)平台上的各相关软件包位置:

linux 发行版:red hat enterprise linux (rhel) 7.x

注意:对于在 ibm powerpc 之上运行其它发行版,大家必须从源处构建软件包。

marathon 是一套用于在 mesos 之上运行长期运行应用程序或者服务的框架。这些应用程序具备高可用性要求,这意味着 marathon 能够监控并在遭遇故障时以自动化方式重启应用实例,且可以通过弹性方式实现应用规模扩展。marathon 亦能够运行其它框架,具体包括 hadoop 以及 marathon 自身。典型的 marathon 使用工作流为在集群之内运行 n 个同一应用程序实例,且每个应用实例都需要配备 1 个处理器与 1 gb 内存容量。大家可以向 marathon 提交请求以创建 n 个运行在各从节点之上的 mesos 任务。

marathon 提供一套具象状态传输(简称 rest)api 用于对服务进行启动、终止以及扩展。其同时提供基于浏览器的 gui 与命令行客户端。其能够以高可用性方式运行在多个 marathon 实例当中。在本篇文章中,大家将了解如何通过 marathon 实现服务部署,以及如何将该服务使用于特定示例应用当中。这里提到的各项指令适用于英特尔与 ibm power 架构(即openpower)服务器。这里选择的服务为 mysql 数据库服务。

从宏观层面来看,一套 mesos/marathon 集群的结构可抽象为以下示意图形式:

在 RHEL 7.1 上设置 Mesos/Marathon 集群

图一: mesos/marathon 集群

一项服务是指一组能够自我容纳且独立部署与管理的功能单元。面向服务架构(简称 soa)以及最近颇为流行的微服务架构鼓励大家利用多项松散耦合的服务构建应用程序。更为现代的应用程序则由多项微服务构成,这种方式能够带来诸多优势,具体包括代码复用性、简化 scdefauult 端口范围 31000 到 32000,使用 followaling、故障独立、支持多种平台、部署灵活以及出色的敏捷性等等。

mesos 能够处理批量、实时及其它处理框架,其执行时间一般更短。企业基础设施运行有大量应用程序及服务,因此需要更长时间完成且对于正常运行提出了不同于数据处理框架的诸多要求。这些长期运行的服务对于业务而言可能非常关键,因此需要占用相当一部分基础设施资源。因此,将服务运行在 mesos 之上就变得非常必要。

为了以规模化方式运行服务,基础设施需要能够支持以下要求:

如果服务依赖于其它服务且对于服务的部署位置拥有严格要求,那么相关部署工作将变得较为复杂。

配置管理与软件包旨在确保某项服务的全部依赖性皆得到满足,且环境应在服务启动前配置妥当。

服务交付与负载均衡在同一服务的多个实例并行运行时非常重要。服务发现负责应答特定服务所运行实例的具体位置,而负载均衡则负责决定特定请求应被分配至哪个实例处。

在服务部署完成之后,最重要的是对服务的运行状态加以监控。运行状态监控信息可用于指导后续操作,例如对服务规模进行伸缩,或者在发生故障时对服务加以重启。

可用性要求指定服务需要满足的可用性,从而应对高负载与故障状况。

以下步骤将阐述如何在 openpower 系统之上,例如运行有 rhel little endian(简称le)的 tyan 服务器,设置一套 mesos/marathon 集群。

执行以下步骤以安装并设置 mesos 主节点与 marathon。

添加 unicamp 软件包库。确保以下库被添加至将成为 mesos 集群组成部分的全部系统当中(即 mesos-master 与mesos-slave):

<code># cat &gt; /etc/yum.repos.d/unicamp-misc.repo &lt;&lt;eof</code>

<code>[unicamp-misc]</code>

<code>name=unicamp repo for misc packages</code>

<code>baseurl=http://ftp.unicamp.br/pub/ppc64el/rhel/7_1/misc_ppc64el/</code>

<code>enabled=1</code>

<code>gpgcheck=0</code>

<code>eof</code>

使用以下命令以安装各必要软件包:

<code># yum install mesos python-mesos zookeeper marathon</code>

配置 mesos 主节点。编辑 <code>/etc/sysconfig/mesos-master</code>文件并添加以下信息:

<code>mesos_ip=mesos_master_ip</code>

<code>mesos_zk=zk://localhost:2181/mesos</code>

<code>mesos_quorum=1</code>

如果 mesos-master 的 ip 地址为 192.168.122.31,那么完整配置文件应如下所示:

<code># this file contains environment variables that are passed to mesos-master.</code>

<code># to get a description of all options run mesos-master --help; any option</code>

<code># supported as a command-line option is also supported as an environment</code>

<code># variable.</code>

<code># some options you're likely to want to set:</code>

<code>mesos_log_dir=/var/log/mesos</code>

<code>mesos_work_dir=/var/run/mesos</code>

<code>mesos_port=5050</code>

<code></code>

<code># for isolated sandbox testing</code>

<code>#mesos_ip=127.0.0.1</code>

<code>mesos_ip=192.168.122.31</code>

使用以下命令重启 zookeeper 以及 mesos-master 服务:

<code># service zookeeper start</code>

<code># service mesos-master start</code>

打开网络端口。在默认情况下,mesos-master 利用端口 5050 进行通信。确保其如下所示,从而满足本地防火墙部署需求。如果大家使用防火墙,请运行以下命令以打开面向公共区域的 tcp 端口:

<code># firewall-cmd --zone=public --add-port=5050/tcp --permanent</code>

<code># firewall-cmd –reload</code>

运行该 mesos 主节点以在系统上配置 marathon。

<code># cat &gt;/etc/sysconfig/marathon&lt;&lt;eof</code>

<code>marathon_master=zk://localhost:2181/mesos</code>

<code>marathon_zk=zk://localhost:2181/marathon</code>

<code>marathon_task_launch_timeout=600000</code>

<code>mesos_native_java_library=/usr/lib64/libmesos.so.22</code>

<code>mesos_native_library=/usr/lib64/libmesos.so.22</code>

使用以下命令以启动 marathon 服务:

<code># service marathon start</code>

使用以下命令以安装必要软件包:

<code># yum install mesos python-mesos</code>

配置 mesos 从节点。在 <code>/etc/sysconfig/mesos-slave</code> 当中编辑 <code>hostname</code> 变量,将其指向 mesos 主节点 ip,而后设置 <code>mesos_executor_registration_timeout</code> 与 <code>mesos_ip</code> 变量。

举例来说,如果 mesos-master 的 ip 地址为 192.168.122.31,而 mesos-slave 为 192.168.122.48,那么配置文件内容将如下所示:

<code># this file contains environment variables that are passed to mesos-slave.</code>

<code># to get a description of all options run mesos-slave --help; any option</code>

<code># the mesos master url to contact. should be host:port for</code>

<code># non-zookeeper based masters, otherwise a zk:// or file:// url.</code>

<code>mesos_master=192.168.122.31:5050</code>

<code>mesos_executor_registration_timeout=10mins</code>

<code>mesos_ip=192.168.122.48</code>

<code>#mesos_master=127.0.0.1:5050</code>

<code># for a complete listing of options execute 'mesos-slave --help'</code>

<code>mesos_containerizers=docker,mesos</code>

<code># systemd cgroup integration</code>

<code>mesos_isolation='cgroups/cpu,cgroups/mem'</code>

<code>mesos_cgroups_root='system.slice/mesos-slave.service'</code>

<code>mesos_cgroups_hierarchy=/sys/fs/cgroup</code>

使用以下命令以重启该 mesos-slave 服务:

<code># service mesos-slave restart</code>

打开网络端口。在默认情况下,mesos-slave 利用端口 5051 进行通信。确保其不要被本地防火墙所屏蔽。如果大家需要使用防火墙,请运行以下命令以开启一个面向公共区域的 tcp 端口:

<code># firewall-cmd --zone=public --add-port=5051/tcp -permanent</code>

<code># firewall-cmd -reload</code>

marathon ui 可通过 http://mesos_master_ip:8080 网站进行访问。举例来说,如果 mesos-master 的 ip 地址为 192.168.122.31,那么 marathon ui 链接则可通过 http://192.168.122.31:8080 网站进行访问。

此源代码当中包含 docker 文件以及相关设置脚本,用于在英特尔与 power(ppc64le)系统之上构建 mysql docker 镜像。

在以下示例当中,192.168.122.48 将作为运行在 mesos 服务器与 marathon 之上系统的 ip 地址。

大家可以利用 marathon ui 或者 rest api 直接部署一款应用。举例来说,以下代码即利用 marathon 的 rest api 进行应用程序部署:

<code>curl -x post http://192.168.122.48:8080/v2/apps -d @mysqlcontainer.json -h "content-type: application/json"</code>

<code>#cat mysqlcontainer.json</code>

<code>{</code>

<code>"id": "mysql",</code>

<code>"cpus": 0.5,</code>

<code>"mem": 64.0,</code>

<code>"instances": 1,</code>

<code>"container": {</code>

<code>"type": "docker",</code>

<code>"docker": {</code>

<code>"image": "ppc64le/mysql",</code>

<code>"network": "bridge",</code>

<code>"portmappings": [</code>

<code>{ "containerport": 3306, "hostport": 0, "serviceport": 0, "protocol": "tcp" }</code>

<code>]</code>

<code>}</code>

<code>},</code>

<code>"env": {</code>

<code>"mysql_root_password" : "password",</code>

<code>"mysql_user" : "test",</code>

<code>"mysql_password" : "test",</code>

<code>"mysql_db" : "bucketlist"</code>

一个非零 <code>hostport</code> 会被分配给某个随机端口。当然,大家也可以明确指定 <code>hostport</code> 值。确保在 <code>hostport</code>中指定的各个端口包含相关资源。举例来说,如果需要使用 7000 到 8000 范围的端口,同时将 31000 到 32000 设定为默认端口范围,则请使用以下选项:

<code>–resources="ports(*):[7000-8000, 31000-32000]"</code>

在服务部署完成之后,大家需要将其发现而后进行接入,即立足于应用程序使用接入该服务的链接。当前服务的运行可能依赖于其它服务。因此,接入容器就变得非常重要。当使用 marathon 接入服务时,请注意以下几项要点:

mesos/marathon 并不具备使用 docker 链接别名的方法。因此,如果大家的应用程序配置使用到链接别名,则其将无法正常起效。举例来说,如果 web 应用程序依赖于一套数据库容器且使用包含数据库链接前缀(例如<code>db_port</code> 或者 <code>db_tcp_addr</code> 等)的环境变更,请确保该应用配置不依赖于链接别名前缀。作为连接两端的应用及服务需要被部署在同一主机之上方可实现通信。

使用限制参数在同一节点之上部署各相连容器,具体如以下示例所示:

<code>$ curl -x post -h "content-type: application/json" localhost:8080/v2/apps -d '{</code>

<code>"id": "sleep-cluster",</code>

<code>"cmd": "sleep 60",</code>

<code>"instances": 3,</code>

<code>"constraints": [["hostname", "cluster", "a.specific.node.com"]]</code>

<code>}'</code>

要使用以上代码,首先使用 <code>hostname</code> 参数启动 mesos-slave,具体如下所示:

<code># mesos-slave --master=zk://192.168.122.48:2181/mesos --containerizers=docker,mesos --executor_registration_timeout=10mins --ip=192.168.122.253 --hostname=ubuntu</code>

这部分设置以 openpower(即 powerpc 架构)为基础环境。当然,大家也可以在英特尔环境下使用同样的指令。

将目标容器名称作为值指定给链接键。另外,使用限制参数以确保新容器被部署在目标容器运行所在的同一主机之上。

<code>curl -x post http://192.168.122.48:8080/v2/apps -d @flaskcontainer.json -h "content-type: application/json"</code>

<code># cat flaskcontainer.json</code>

<code>"id": "flaskappcontainer",</code>

<code>"image": "ppc64le/flaskapp",</code>

<code>{ "containerport": 80, "hostport": 0, "serviceport": 0, "protocol": "tcp" }</code>

<code>],</code>

<code>"parameters": [</code>

<code>{ "key": "link", "value": "mesos-b81f9a21-3133-49de-acf6-988226eb6874-s18.5d3dcaa7-05c6-4a5b-af68-dba32b7d1835"}</code>

<code>"constraints": [</code>

<code>[ "hostname","cluster","ubuntu" ]</code>

这里的 mesos-dns 负责创建指向 ip 地址的应用,而端口编号则映射运行在 mesos 集群之上的各应用程序。

以下为用于本次设置的示例配置文件内容:

<code>"zk": "zk://192.168.122.48:2181/mesos",</code>

<code>"masters": ["192.168.122.48:5050"],</code>

<code>"refreshseconds": 60,</code>

<code>"ttl": 60,</code>

<code>"domain": "mesos",</code>

<code>"port": 53,</code>

<code>"resolvers": ["8.8.8.8"],</code>

<code>"timeout": 5,</code>

<code>"listener": "0.0.0.0",</code>

<code>"soamname": "ns1.mesos",</code>

<code>"soarname": "root.ns1.mesos",</code>

<code>"soarefresh": 60,</code>

<code>"soaretry": 600,</code>

<code>"soaexpire": 86400,</code>

<code>"soaminttl": 60,</code>

<code>"dnson": true,</code>

<code>"httpon": true,</code>

<code>"httpport": 8125,</code>

<code>"externalon": true,</code>

<code>"ipsources": ["netinfo", "mesos", "host"],</code>

<code>"enforcerfc952": false</code>

大家可以选择在任意主机之上运行 mesos-dns 目录,或者通过 marathon 框架加以运行。举例来说:

<code>curl -x post http://192.168.122.48:8080/v2/apps -d @mesos-dns.json -h "content-type: application/json"</code>

此为通过 marathon 启动 mesos-dns。

<code>此为通过marathon启动mesos-dns。</code>

<code># cat mesos-dns.json</code>

<code>"cmd": "&lt;path&gt;/mesos-dns -config=&lt;path&gt;/config.json",</code>

<code>"cpus": 1.0,</code>

<code>"mem": 1024,</code>

<code>"id": "mesos-dns",</code>

直接在该主机上使用以下命令以运行 mesos-dns:

<code># mesos-dns -v=1 -config=&lt;path_to_config_json&gt;</code>

利用以下格式命名该项服务:

<code>&lt;service-name&gt;.&lt;framework&gt;.&lt;domain-name&gt;</code>

如此一来,该 mysql 服务的 dns 名称将为 <code>mysql.marathon.mesos</code>。

mesos-dns 还能够为各项服务创建 dns srv 记录。一条 srv 记录负责将一条服务名称与一个主机名称及一个 ip 端口相关联。 mesos-dns 为服务生成一条名为 <code>_task._protocol.framework.domain</code> 的 dns-srv 记录。

在这里:

<code>task</code>(即任务)代表所启动的应用/服务(在本示例中为 mysql)。

<code>protocol</code>(即协议)为 udp 或者 tcp。

<code>framework</code>(框架)为 marathon 或者任意其它框架。

<code>domain</code>(域)即为集群域(在本示例中为 mesos)。

此条 srv 记录可由其它 marathon 应用用于发现服务。举例来说,任何需要配合 mysql 服务的应用都能够从 srv 记录当中找到 <code>_mysql_tcp.marathon.mesos</code>。

<code># docker ps</code>

<code>container id image command created status ports names</code>

<code>e227390bfb3d ppc64le/mysql "/setup.sh" 3 seconds ago up less than a second 0.0.0.0:31172-&gt;3306/tcp mesos-fabb6e52-064a-425a-a501-330bc772cd55-s16.85fb3e7c-b2ca-412f-ac75-1ec314bee575</code>

<code># dig _mysql._tcp.marathon.mesos -t srv</code>

<code>; &lt;&lt;&gt;&gt; dig 9.9.4-redhat-9.9.4-29.el7 &lt;&lt;&gt;&gt; _mysql._tcp.marathon.mesos -t srv</code>

<code>;; global options: +cmd</code>

<code>;; got answer:</code>

<code>;; -&gt;&gt;header&lt;&lt;- opcode: query, status: noerror, id: 2126</code>

<code>;; flags: qr aa rd ra; query: 1, answer: 1, authority: 0, additional: 1</code>

<code>;; question section:</code>

<code>;_mysql._tcp.marathon.mesos. in srv</code>

<code>;; answer section:</code>

<code>_mysql._tcp.marathon.mesos. 60 in srv 0 0 31172 mysql-4huw5-s16.marathon.slave.mesos.</code>

<code>;; additional section:</code>

<code>mysql-4huw5-s16.marathon.slave.mesos. 60 in a 192.168.122.48</code>

<code>;; query time: 1 msec</code>

<code>;; server: 192.168.122.48#53(192.168.122.48)</code>

<code>;; when: mon feb 08 14:27:38 ist 2016</code>

<code>;; msg size rcvd: 147</code>

以下为利用 dnspython 模块查询 srv 记录,从而检索对应主要及端口以访问该项服务的示例 python 代码:

<code>import dns.resolver</code>

<code>a = dns.resolver.query("_mysql._tcp.marathon.mesos",dns.rdatatype.srv)</code>

<code>for i in a.response.answer:</code>

<code>for j in i.items:</code>

<code>print j.target</code>

<code>print j.port</code>

以下为示例设置的输出结果:

<code>mysql-4huw5-s16.marathon.slave.mesos.</code>

<code>31172</code>

因此,可以推断出 mysql 服务器运行在主机名称为 mysql-4huw5-s16.marathon.slave.mesos 的从节点之上,且使用端口 31172。

原文发布时间为:2016-10-26

本文来自云栖社区合作伙伴“linux中国”