flume学习（三）：flume将log4j日志数据写入到hdfs

2021-11-06 22:18:43

在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中。配置文件如下：

tier1.sources=source1

tier1.channels=channel1

tier1.sinks=sink1

tier1.sources.source1.type=avro

tier1.sources.source1.bind=0.0.0.0

tier1.sources.source1.port=44444

tier1.sources.source1.channels=channel1

tier1.channels.channel1.type=memory

tier1.channels.channel1.capacity=10000

tier1.channels.channel1.transactioncapacity=1000

tier1.channels.channel1.keep-alive=30

tier1.sinks.sink1.type=logger

tier1.sinks.sink1.channel=channel1

本次我们把log4j的日志直接采集输出到hdfs中去。需要修改flume.conf中sink的配置：

tier1.sinks.sink1.type=hdfs

tier1.sinks.sink1.hdfs.path=hdfs://master68:8020/flume/events

tier1.sinks.sink1.hdfs.filetype=datastream

tier1.sinks.sink1.hdfs.writeformat=text

tier1.sinks.sink1.hdfs.rollinterval=0

tier1.sinks.sink1.hdfs.rollsize=10240

tier1.sinks.sink1.hdfs.rollcount=0

tier1.sinks.sink1.hdfs.idletimeout=60

简单说明一下修改的部分，我们将sink的type由logger变为hdfs，然后指定输出path, 默认是输出到hdfs后为sequencefile,里面的内容无法直接打开浏览，为了便于直观看到我们输出的日志信息，所以我这里将filetype为datastream, writeformat=text,这样就可以直接打开生成的文件进行查看了。

下面几个roll开头的参数都是用来控制滚动日志输出的，官方文档上的说明也很详细，我这里配置的只按文件大小来滚动rollsize=10240,也就是10k滚动生成一个新的文件用来接收新的events。实际中这个size应该更大一些，我觉得设置成hdfs的blocksize大小应该挺合适的。

idletimeout设置为60秒（默认值为0），这里面的原理是这样的，flume里面每生成一个接收文件时的命名规则如：flumedata.1406251462179.tmp，.tmp表示这个文件正在被使用来接收events，当满10k之后，这个文件会被rename成flumedata.1406251462179，把.tmp后缀去掉，但是如果你停止了应用程序后，flumedata.1406251462179.tmp还没满10k，按照默认的idletimeout设置，不会将它rename,也就是.tmp后缀一直在，造成了这个文件一直在使用当中的一个假象，这是有问题的，我们设置idletimeout=60，即60秒后这个文件还没有被写入数据，就会关闭它然后rename它去掉.tmp,以后新进来的events，会新开一个.tmp文件来接收。

我们再运行第一篇文章中的那个示例应用程序，然后去path指定的目录下面就能看到log4j输出的日志信息了。

补充注意点（针对cm安装的flume）：

首先在hdfs上创建/flume目录：hadoop fs -mkdir /flume

给该目录授权给flume用户和组：hadoop fs -chown -r flume:flume /flume

注意给目录授权很重要，不然会报错。

flume学习（三）：flume将log4j日志数据写入到hdfs

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method