第2章 大数据平台
2.1 大数据平台基础架构
大数据基础平台基于烽火自主知识产权FitData产品,FitData主要集成了基础计算资源、网络资源、存储资源,在统一的安全体管理体系下,将这些资源再进行深度加工、处理、关联,形成多种类型的基础服务能力,构建基础资源层,向应用提供基础资源的服务能力。数据服务总线通过服务治理来维护基础资源服务能力,并通过访 问控制、服务质量、协议转换等,对应用提供多协议支持。平台支撑体系的运维体系提供整体运维能力,保障平台的正常运行;安全体系提供整体安全能力,保障平台的数据安全和使用安全;平台采用分布式架构,支持巨量数据存储与分析, 保障专家管理系统的高性能、高可用性和易扩展性。FitData大数据基础平台结构如下图红线标出部分。
- 数据计算与存储:是FitData 大数据平台的核心容,提供分布式存储能力和分布式计算能力。提供的存储框架能力,包括基于结构化数据存储、非结构化数据存储和半结构化数据存储,其计算框架与存储框架均是分布式集群方式部署,可以平滑的进行弹性扩容。
- 数据服务层:数据服务层主要由数据服务接口来实现,对应用提供数据支撑。通过数据服务接口将平台的数据资源以标准 API 接口的方式开放出来,供不同的应用系统使用。数据应用层主要提供基于该平台来构建的专家系统应用。采用平台的标准API,数据资源层获取数据服务,目前API 接口包括资源目录浏览、数据查询搜索等。
- 数据汇聚层:提供各层之间数据交换能力,由ETL数据集成工具来实现。平台支持多中异构数据源,针对不同数据源的不同数据,也提供多种数据抽取方式,例如数据库直 连抽取、Sqoop 抽取等。提供计算框架能力,主要集成了批处理计算框 架、流式计算框架、存计算框架等能力,还提供了像 Hive、Mahout、 Spark 等二次计算能力框架。平台可将这些计算能力开放,供数据模型、数据挖掘、应用系统来使用。
- 运维体系:运维体系提供面向专家系统完整运维方案, 涵盖了运行监控到使用操作。安全体系提供面向专家系统大数据平台的用户权限管理、终 端访问控制、日志安全审计等能力。
数据存与计算是 FitData 大数据平台核心能力,将目前专家系统部业务数据源进行有效整合,集成以数据为核心的查询、 分析和管理能力。采用分层整合,灵活配置,横向扩展,纵向贯穿的大数据平台服务能力,其计算框架、存储框架都以容器的方式,可轻松灵活的在线进行装卸,以平滑扩充大数据平台的集成能力。除此还集成了二级计算框架、通用的数据处理算法库和数据仓库,将大数据平台的数据进行清洗、加工和分析挖掘,处理后的数据可订阅,充分体现数据即服务的大数据思想。
- 分布式存储框架:主要负责针对巨量数据的存储,以分布式存储技术, 支持快速、巨量、多种类型的数据存取。支持从数据源抽取数据到大数 据平台存储,集成多种存储方式,有针对结构化数据、非结构化数据和 半结构化数据的存储。
- 计算框架:主要提供批处理计算、存计算、流式计算框架,由数据处 理管理驱动来分配和调度计算框架,加载数据处理算法,完成数据处理。
- 数据仓库:主要对计算框架完成后的结果进行存储,支持 Hbase、MS SQL Server 等存储,同时将数据以接口的形式开放出去。
- 数据处理算法库:集成通用的数据分析算法、能够插入用户自定义的数 据模型算法,配合以资源管理系统为主的计算存储框架,进行数据处理。
- 资源管理系统,以容器的方式,来为计算框架和存储框架分配资源,并 支持资源调度,弹性伸缩。
- 数据服务总线:主要将基础平台的能力和数据服务接口,以 API 的方式开放出去,形成一个共享的、供应用使用的服务总线。
2.2 FitData特点
- 广泛适应性:支持结构化、半结构化、非结构化数据;支持实时数据。
- 巨量数据:数据处理能力在PB级以上。
- 线性扩展:存储、计算均可增加节点进行线性扩展。
- 统一运维管理:降低安装部署、运营、维护成本。
- 经济性:可运行在普通X86服务器上,硬件成本低。
- 高可靠性:支持容灾容错、备份恢复机制,支持自动告警。支持节点可靠性、数据可靠性。
- 高性能:高效数据处理性能,支持Spark、Storm、R。
- 认证安全:支持Kerberos安全认证、LDAP账户管理控制。
- 数据安全:支持数据加密。
- 负载均衡:支持节点间存储、技术负载均衡。
- 开放性:支持符合Hadoop规的第三方组件或工具。
2.3 FitData主要功能
FitData是基于开源Hadoop开发的企业级大数据产品,提供PB级数据的采集、存储和处理能力,支持数据加载、查询、分析、挖掘等功能。
2.3.1 节点批量自动部署
通过以Web管理,以图形界面的方式实现大数据平台节点批量自动部署,只需添加主机名(或者IP地址)即可实现将节点服务器添加到集群中,截图如下:
图 向集群中添加节点
2.3.2 节点动态管理
通过web管理实现节点的动态添加、删除,当存储空间或者计算资源不足时,支持向集群中添加同等配置的服务器,实现大数据平台在线动态扩容,而不需要停机处理,不影响平台正常运行。
大数据平台以Web图形界面实现Hadoop集群监控,包括大数据平台的硬件资源、软件资源、数据资源的监控,以及整个Hadoop集群的工作负载。主要包括以下几个方面:
2.3.3 服务组件状态监控
通过管理平台可以看到所有目前已安装的服务组件的健康状况。
图 服务组件运行状况
2.3.4 计算资源负载监控
通过管理平台可以实时看到整个平台的资源负载情况,包括集群的CPU、集群磁盘IO、集群网络IO、HDFS IO,如下图所示:
图 计算资源监控
2.3.5 多任务实时监控
通过对集群运行任务的实时监测,并根据任务优先级和耗时不同对任务进行动态调度,减少出现大量任务等待和重要任务无法及时完成的可能,可以使Hadoop集群的运行变得更加高效合理。
(1)、系统根据各队列资源的最小值分配集群资源,这样可以按照需求对各任务队列获取的集群资源进行分配,而且不会出现集群资源的闲置浪费。
(2)、可以实现对各任务队列获取的集群资源大小实时动态调整,及时保证高优先级任务所在队列获得更多的集群资源。
(3)、可以实现在某个任务队列出现空闲时,将该任务队列获取的集群资源自动分配给其他繁忙的任务队列,以使得集群资源利用最大化。
2.3.6 磁盘性能监控
对集群机器的硬盘进行监控,如下图所示,详细的展示出磁盘IO的利用率,读写速度,磁盘的等待时间。
图:磁盘性能监控
2.3.7 故障快速定位
大数据平台具备完整的告警监控和故障快速定位能力。能够将计算框架的每个作业进度、状态、资源利用情况进行监控,并通过可视化图形界面进行展示。
当大数据平台出现异常情况时,平台能够通过监控系统,对服务器节点宕机、集群异常、安全异常等异常事件进行预警、报警,并通过、短信报警手段进行告警通知。提供预制的恢复规则和安全规则,对集群异常进行自动修复、自动限制非安全行为的操作。
大数据平台能够通过对告警信息的分析,快速定位平台部出现故障的节点,对于因故障无法继续提供服务器的节点进行标记,将平台的作业任务自动分配到其他的节点上运行,同时,大数据平台采用分布式体系结构及无单点故障设计,平台任何节点的宕机都不会影响平台的稳定运行和业务的正常使用。待故障节点恢复正常后,再将该节点纳入平台的资源中,将作业任务分配到恢复后的节点上运行。
2.3.8 日常运维监控
大数据综合平台提供完整的日常运维监控的服务能力,针对从上层应用平台到底层基础平台的各个功能模块和组件均提供有监控能力,能够分析系统的运行日志和用户日志,并且能够将监控数据通过文件接口或webservice接口的方式汇总到平台管理运维模块的监控管理界面中进行统一呈现和管理使用。系统能够根据监控到的数据进行分析判断,对异常的数据触发告警,在前台界面提醒,直至出发通知和处理等进一步动作。
平台的监控围涵盖有:
 平台管理资源的使用与分配
 服务器视图:提供针对各服务器和存储等设备的资源使用情况的实时查看,包括当前设备的CPU负荷,存占用情况,存储空间使用情况,网络带宽占用情况、设备运行状态等。管理员能够根据监控信息在管理平台上有效调度分配系统资源。其中集群的监控如下图所示:
针对服务器的监控如下图所示:
 服务视图:提供系统中各服务资源使用情况的实时查看,包括连接数、当前作业数,I/O情况,运行状态等。
监控系统的运行情况
- 接口服务运行监控:提供针对数据源和应用层的监控服务,包括运行状态和流量等信息;
- 数据存取过程监控:提供针对数据存储过程的监控服务,包括系统平台的I/O情况(整体I/O和具体各节点I/O以及具体的各作业的I/O情况)和数据存取过程的任务列表;
- 数据汇聚过程监控:监控系统的数据汇聚过程,包括使用资源信息,使用的数据源信息,作业进程运行状况信息,使用时间/计划完成时间等信息;
- 数据处理过程监控(作业监控):监控系统的数据处理(作业)过程,包括使用资源信息,使用的数据源信息,作业进程运行状况信息,使用时间/计划完成时间等信息;
- 应用监控:针对运行在平台上的应用进行监控,包括各应用当前的运行状态、应用对数据的使用状况,应用为用户提供的查询数量等;
系统异常告警与处理
- 用户告警:对用户操作使用过程中的异常行为进行告警,例如某用户访问了超过其正常权限的数据等。
- 系统告警:对系统中存在的服务节点宕机,系统接口异常,数据存储报错,系统资源紧等系统运行异常情况进行告警触发,并提醒用户进行操作处理。
2.4 FitData优势
烽火大数据平台FitData借助先进开源的大数据存储及处理技术,成功实施了公安大数据平台、楚天云政务大数据平台,通过大数据项目的实施,逐步沉淀了大量的算法模型及分析与展示工具,在平台性能及稳定性上经历了实战的考验,逐步总结出一套FitData自己的系统优化策略及系统运维策略,平台经受住了单节点超过1000台集群的实战考验,并支持HA高可用性运行策略,经过四年时间及高强度项目的锤炼,FitData大数据平台已经走出了自己的路。在数据处理上支持PB及超大量数据的秒级查询及汇集。
SmartAS是企业级基础开发平台,它基于FitData平台之上,采用微服务架构,支持分布式部署,是成熟可靠的多终端应用开发框架。它集成业界流行和成熟的技术框架,通过应用系统使用,反馈的情况不断完善应用框架的通用功能,满足业务系统快熟构建的目标,具备良好用户体验