本文主要是介绍Logstash中grok filter example例子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
title: Logstash中grok filter example例子
date: 2017-02-28
tags: 大数据
一、Logstash
本文适合有部分Logstash经验的人阅读,如果不懂Logstash是什么,请多加google,后面我会继续整理的
1、filters
Logstash核心组成部分就包括filters,这是个过滤器。一般日志中还是有很多有用信息的,利用Logstash的filter机制可以将这些信息抽取出来
1)、JSON Filter
这种方式对于日志数据源是json格式的比较有效,这里我不多讲,一般人日志不会特意弄成json格式的吧…
2)、Grok Filter
这种方式是我今天重点记录的,Grok是一种数据格式化工具,利用它就可以进行定制我们的格式化请求了。
我们先来看一段实例:
input {stdin{}}
filter{grok {match => {"message"=>"20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second}) \[%{LOGLEVEL:level}\] appname._log%{NAGIOSTIME:linenumber}: (.*)"}
}
}
output {stdout{}}
input和output我省略了,这段代码重点看的是filter部分。其实就是一些类似正则表达式的东西,然后去匹配我们的log,然后转成一个个json,然后发给output,output我设置的es。
看了上面的匹配例子,大概心里有个底,长什么样子,下面来解析
牢记,每一个小表达式的样子就是
%{IP:client}
这种辣么IP是什么?client是什么?IP是一种模式的名称,能够自动去匹配你log中的部分,这里IP顾名思义,看到了ip地址如127.0.0.1就会给这一条log起个key值,key是client,所以json里面就会多一条数据,多一条client=>127.0.0.1这样的
现有的模式我去哪里找?
这个问题问得比较好,官方其实是支持很多的,让我们来看看支持列表点击这里
上面的这个是Logstash1.4.2支持的,为什么没有新版的呢???这个问题下面回答
为什么没有新版的Logstash支持的patterns
在新版本的logstash里面,pattern目录已经为空,最后一个commit提示core patterns将会由logstash-patterns-core gem来提供,该目录可供用户存放自定义patterns,啥意思?也就是说用户可以自定义一些pattern然后保存在本地
怎么自定义
这里先留着,官方文档有,以后补充
这么麻烦,还有没有现成的?
答案是有,很多人帮你封装好了,地址在这里 ,这个是别人整理好的一些pattern,你可以按照他的安装方法,然后直接调用,里面有一些非常实用的表达式,比如可以直接解析tomcat打印出来的日志,直接一个表达式就搞定
TOMCATLOG
下面我们来看一下grok的实例
我有一段thinkphp这样的日志:
2016-12-19 14:36:26,298 [INFO] appname._log[95]: send sms use channel :6 2016-12-19 14:36:26,338 [INFO] appname._log[95]: send email use channel :4 2016-12-19 14:36:26,498 [INFO] appname._log[95]: send email use channel :6
首先要分析一下日志结构,才能写出相应的解析代码
日志结构:日期+[日志级别]+appname._log[行号]:详情
日期用年月日表示
20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second})
日志级别:
%{LOGLEVEL:level}
详情: (.*) 直接这个表达式搞定
其他特殊符号:比如说逗号,- 号等,我们可以原样写出即可,部分可能需要转义
所以整体上面是这样的
match => {"message"=>"20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second}) \[%{LOGLEVEL:level}\] appname._log%{NAGIOSTIME:linenumber}: (.*)"}
我有一段tomcat的日志
2016-12-28 14:55:05,062 INFO |XmlWebApplicationContext |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy 2016-12-28 14:55:06,062 INFO |XmlWebApplicationContext |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy 2016-12-28 14:55:07,062 INFO |XmlWebApplicationContext |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy 2016-12-28 14:55:08,062 INFO |XmlWebApplicationContext |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
同样分析结构,如果安装了上面说的那个插件的话,就可以直接
match => {"message" => "%{TOMCATLOG}"}
这样一句话搞定,我有一段nginx的日志
55.3.244.1 GET /index.html 15824 0.043
表达式可以像下面那样写
%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}
验证你写的表达式是否正确
可以到这个验证网站验证一下你写的是否正确
这篇关于Logstash中grok filter example例子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!