简介
日志可能是一种最简单的不能再简单的存储抽象,只能追加、按照时间完全有序(totally-ordered)的记录序列。作为项目开发必不可少的一部分,日志不仅可以帮助开发人员调试和优化系统,还可以是一种有价值的信息宝库,但是各系统混杂的日志如果不加以筛选和规范,就很难发挥其中的价值。
阿里云
日志服务(SLS)是云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能,全面提升研发、运维、运营和安全等场景数字化能力。
Scheduled SQL是一项由 SLS 全托管的用于定时分析数据、存储聚合数据、投影与过滤数据的功能,简单来说就是:定时调度 +
查询分析。解决场景需求包括:
- 定时分析数据:根据业务需求设置 SQL 语句或查询分析语句,定时执行数据分析,并将分析结果存储到目标库中。
- 全局聚合:对全量、细粒度的数据进行聚合存储,汇总为存储大小、精度适合的数据,相当于一定程度的有损压缩数据。
log4j简介
Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制程序日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接 口服务 器、NT的事件记录器、UNIX Syslog守护进程等;我们也可以控制每一条日志的输出格式;通过定义每一条日志信息的级别,我们能够更加细致地控制日志的生成过程。
最常用的是把日志信息输出到控制台和文件中,供开发人员进行调试和后续的系统分析。
常见的日志字段
- 时间(日志产生的时间)
- 日志级别(INFO、WARN、ERROR)
- 日志信息产生的地点(在代码中的何处)
- 日志信息
2021-10-12 08:47:15:733 [pool-4-thread-3] INFO test.log.LogMock.randomLog(LogMock.java:58) - send 1000 log to sls success
2021-10-12 08:47:15:485 [pool-4-thread-3] ERROR test.log.LogMock.randomLog(LogMock.java:64) - Error processing file web/2021/07/01/22/00_1625148042575442246_1435278095.snappy
com.aliyun.log.test.LogException: ErrorMessage: Write quota is exceeded. ErrorCode: 403
at com.aliyun.log.ingest.core.producer.DefaultProducer.doSend(DefaultProducer.java:195) ~[sls-connect.jar:?]
at com.aliyun.log.ingest.core.producer.DefaultProducer.send(DefaultProducer.java:100) ~[sls-connect.jar:?]
at com.aliyun.log.ingest.core.AbstractSourceContext.collect(AbstractSourceContext.java:44) ~[sls-connect.jar:?]
at com.aliyun.log.ingest.common.writer.RecordWriter.flush(RecordWriter.java:128) ~[sls-connect.jar:?]
at com.aliyun.log.ingest.oss.processor.JSONReader.read(JSONReader.java:103) ~[sls-connect.jar:?]
at com.aliyun.log.ingest.oss.processor.TextFileProcessor.parseAndEmitRecords(TextFileProcessor.java:101) ~[sls-connect.jar:?]
at com.aliyun.log.ingest.oss.processor.TextFileProcessor.process(TextFileProcessor.java:63) [sls-connect.jar:?]
at com.aliyun.log.ingest.oss.OSSTask.start(OSSTask.java:57) [sls-connect.jar:?]
at com.aliyun.log.ingest.core.Worker.executeTask(Worker.java:90) [sls-connect.jar:?]
at com.aliyun.log.ingest.core.Worker.executeTasks(Worker.java:124) [sls-connect.jar:?]
at com.aliyun.log.ingest.core.Worker.execute(Worker.java:135) [sls-connect.jar:?]
at com.aliyun.log.ingest.core.Worker.start(Worker.java:156) [sls-connect.jar:?]
at com.aliyun.log.ingest.cli.WorkerStarter.main(WorkerStarter.java:51) [sls-connect.jar:?]
... 12 more
log4j日志采集
上面就是两条常见的log4j格式的日志内容,可以看到包含了常见的日志信息,对于这种日志信息,日志服务提供了
logtail采集的方式可以将日志文件中的日志信息导入到SLS的logstore之中,采集上来的日志内容如下图
业务背景
对于常见的Java系统,为了能准确地定位和追踪,日志信息往往会通过log4j非常详细的输出出来。这些日志在日积月累后的数量是惊人的。例如每天产生1000万条数据,则一年为36亿条数据。一方面,长时间的数据存储需要巨大的存储空间,而通过减少存储周期的方式减少存储空间,虽然降低了存储成本,但也丢失了有价值的数据。另一方面,大量的无用数据将造成在分析有价值数据上的性能压力。
下面列举了三种常见的数据处理方案
方案 | 特点 | |
方案一 | 完全自建,开发难度大,维护成本高 | |
方案二 | 自己处理数据,自己保证exactly-once语义 | |
方案三 |
|
下面就采用方案三来完成对 log4j ERROR级别日志的定时分析及结果存储,并搭配可视化报表。
实践
准备LogStore
准备好使用源logstore,并且配置好索引(参考
配置索引),使用
将log4j日志导入源logstore
源索引配置
源日志
目标logstore索引配置
业务要求
将ERROR级别的日志中的ErrorMessage和ErrorCode拿出来,投递到目标logstore,制作异常可视化仪表盘
查询配置
SQL代码如下
* and level: ERROR | SELECT trim(regexp_extract(message,'ErrorMessage:([^E]+).*', 1)) as ErrorMessage , trim(regexp_extract(message, 'ErrorCode:(.*)', 1)) as ErrorCode limit 100000
点击 查询分析,出现预览结果之后确认无误后点击 创建Scheduled SQL 按钮,创建Scheduled SQL作业
计算配置
资源池有增强型(收费,但资源可扩展,适用于大量计算且有 SLA 要求的业务场景)、免费(Project 级别 15 并行度,后续开放)两种,按照你的需求来设置即可。预览时没有数据可以选择旁边的时间选择按钮,扩大查询时间。写入模式有三种,可以参考
日志库、
时序存储和
创建Scheduled SQL作业,这里我们选择日志库导入日志库。
预览到数据之后,接下来需要我们配置目标logstore,如下图。选好目标project和logstore之后,需要我们配置读写目标的授权 角色ARN,1 2处的角色ARN参考
从Logstore到Logstore中的 写目标授权,这里我已经提前配置好了默认角色,所以系统会自动填充好角色ARN。配置好后点击下一步,进行调度配置的设置。
调度配置
设置 SQL 每 5 分钟执行一次,每次执行处理最近 5 分钟窗口的数据。
注意:
1. 设置延迟执行参数,源 Logstore 的数据到来可能延迟,建议设置大一些的值做等待来保证计算数据的完整性。
2. SQL 运行超过指定次数或指定时间后,这一次的 SQL 实例会失败并继续下一个实例的调度。
作业查看、管理
依次点击1、2、3进入作业详情页面,可以在这个页面查看作业的详情,修改作业配置或者删除作业。
执行实例中展示了所选时间段的作业实例的基本信息,每个实例信息中有 SQL 查询区间,如果任务失败(权限、SQL 语法等原因)或 SQL 处理行数指标为 0(数据迟到或确实没有数据),可以对指定实例做重试运行(失败告警功能开发中)。
效果
可以看到,通过Scheduled SQL已经源logstore内部的ERROR日志筛选了出来,并分离出了ErrorCode和ErrorMessage
延伸
为了进行错误分析,还可以在目标logstore的查询的基础上制作
可视化图表 告警制作错误信息统计图表,简单清晰反映系统的运行状况
- 全局错误趋势统计
SQL
*|SELECT ErrorCode,COUNT(ErrorCode) AS count GROUP BY ErrorCode
写好SQL之后,点击 查询分析 查询处结果之后,点击下图位置处的饼图,出现饼图统计,然后点击添加到仪表盘
配置仪表盘信息后点击确定
然后依次点击下图1 2 3的位置进入新建的仪表盘
新建仪表盘信息如下图,点击箭头指示的位置可以修改查询时间范围,自动执行刚才的SQL,并将结果展示为饼图,点击右上角的编辑可以调整图表的大小和位置。
- 各类型错误趋势统计
SQL:
*|select from_unixtime(__time__ - __time__ % 300) as dt, errorCode, count(1) as cnt group by dt, errorCode order by dt asc limit 100000
- 更多信息请参考