天天看点

分布式日志收集框架Flume下载安装与使用(一)1 需求分析2 Flume概述

1 需求分析

分布式日志收集框架Flume下载安装与使用(一)1 需求分析2 Flume概述

WebServer/ApplicationServer分散在各个机器上,然而我们依旧想在Hadoop平台上进行统计分析,如何将日志收集到Hadoop平台呢?

  • 简单的这样吗?
shell cp hadoop集群的机器上;
hadoop fs -put ... /
      

显然该法面临着容错、负载均衡、高延迟、数据压缩等一系列问题

这显然已经无法满足需求了!

不如问问神奇的Flume呢???

分布式日志收集框架Flume下载安装与使用(一)1 需求分析2 Flume概述

只需要配置文件,轻松解决以上问题!

2 Flume概述

2.1 官网

  • Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。
  • 它具有基于流式数据流的简单灵活的架构。
  • 它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。
  • 它使用简单的可扩展数据模型,允许在线分析应用程序。

2.2 设计目标

可靠性

当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),Store on failure(这也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢复后,继续发送),Best effort(数据发送到接收方后,不会进行确认)。

扩展性

Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。

其中,所有agent和collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避免了单点故障问题。

管理性

所有agent和colletor由master统一管理,这使得系统便于维护。多master情况,Flume利用ZooKeeper和gossip,保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源配置和动态加载。Flume提供了web 和shell script command两种形式对数据流进行管理。

功能可扩展性

用户可以根据需要添加自己的agent,collector或者storage。此外,Flume自带了很多组件,包括各种agent(file, syslog等),collector和storage(file,HDFS等)。

2.3 主流竞品对比

分布式日志收集框架Flume下载安装与使用(一)1 需求分析2 Flume概述

其他的还有比如:

  • Logstash: ELK(ElasticsSearch, Logstash, Kibana)
  • Chukwa: Yahoo/Apache, 使用Java语言开发, 负载均衡不是很好, 已经不维护了。
  • Fluentd: 和Flume类似, Ruby开发。

2.4 发展史

  • Cloudera公司提出0.9.2,叫Flume-OG
  • 2011年Flume-728编号,重要里程碑(Flume-NG),贡献给Apache社区
  • 2012年7月 1.0版本
  • 2015年5月 1.6版本
  • ~ 1.9版本