天天看点

Apache日志文件的正则表达式解析

通用日志格式的apache日志文件示例:

127.0.0.1 - frank [10/oct/2000:13:55:36 -0700] "get /apache_pb.gif http/1.0" 200 2326

组合日志格式的apache日志文件示例:

客户端的ip地址。

由客户端identd进程判断的rfc1413身份(identity),输出中的符号"-"表示此处的信息无效。

http认证系统得到的访问该网页的客户标识(userid),如果网页没有设置密码保护,则此项将是"-"。

服务器完成请求处理时的时间。

客户的动作\请求的资源\使用的协议。

服务器返回给客户端的状态码。

返回给客户端的不包括响应头的字节数.如果没有信息返回,则此项应该是"-"。

"referer"请求头。

"user-agent"请求头。

用来提取信息的正则表达式组成:

^ :匹配每一行的开头。

([0-9.]+)\s :匹配ip地址。

([\w.-]+)\s :匹配identity,由数字字母下划线或点分隔符组成。

([\w.-]+)\s :匹配userid,由数字字母下划线或点分隔符组成。

(\[[^\[\]]+\])\s :匹配时间。

"((?:[^"]|\")+)"\s :匹配请求信息,双引号中可能出现转义的双引号\"。

(\d{3})\s :匹配状态码。

(\d+|-)\s :匹配响应字节数或-。

"((?:[^"]|\")+)"\s :匹配"referer"请求头,双引号中可能出现转义的双引号\"。

"((?:[^"]|\")+)" :匹配"user-agent"请求头,双引号中可能出现转义的双引号\"。

$ :匹配行尾。

最终的表达式如下:

^([0-9.]+)\s([\w.-]+)\s([\w.-]+)\s(\[[^\[\]]+\])\s"((?:[^"]|\")+)"\s(\d{3})\s(\d+|-)\s"((?:[^"]|\")+)"\s"((?:[^"]|\")+)"$

c#示例:

Apache日志文件的正则表达式解析
Apache日志文件的正则表达式解析

在c#中使用

1 staticvoid main(string[] args)

2 {

3 string pattern ="^([0-9.]+)\\s([\\w.-]+)\\s([\\w.-]+)\\s(\\[[^\\[\\]]+\\])\\s\"((?:[^\"]|\\\")+)\"\\s(\\d{3})\\s(\\d+|-)\\s\"((?:[^\"]|\\\")+)\"\\s\"((?:[^\"]|\\\")+)\"$";

4 string input ="127.0.0.1 - frank [10/oct/2000:13:55:36 -0700] \"get /apache_pb.gif http/1.0\"200 2326 \"http://www.example.com/start.html\" \"mozilla/4.08 [en] (win98; i ;nav)\"";

5   system.text.regularexpressions.groupcollection groups =system.text.regularexpressions.regex.match(input, pattern).groups;

6 for (int i =0; i < groups.count; i++)

7 {

8 console.writeline(groups[i].value);

9 }

10 }