更友好的格式化数据提取方案

“

阅读本文大概需要 3 分钟。

”

在工作中，我们开发的系统会涉及到大量的日志。同时，我们还有另一套系统会对日志的内容进行监控，从而判断系统是否正常运作。

以 Nginx 的日志为例，这是一条访问日志：

162.158.167.131 - - [11/Aug/2020:06:47:30 +0800] "GET /tags/Tenacity HTTP/1.1" 301 194 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)"

这条日志包含了很多信息，包括：访问者的 IP 地址：162.158.167.131，访问发起的时间：11/Aug/2020:06:47:30 +0800，具体访问的路径：/tags/Tenacity，访问者的 User-Agent 等等。

一般情况下，我们可能需要编写正则表达式来提取这些信息，大家可以现在试一试，针对上面的日志，如果让你来写正则表达式，你会怎么写。

现在，我们有更好的选择，那就是 parse 这个第三方库。用它能够更加友好又方便地通过简单正则来提取复杂的内容。

我们可以使用pip安装它：

python3 -m pip install parse

安装完成以后，我们用一段简单的代码来进行测试：

>>> import parse
>>> log = '162.158.167.131 - - [11/Aug/2020:06:47:30 +0800] "GET /tags/Tenacity HTTP/1.1" 301 194 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)"'
>>> pattern = '{ip} - - [{dt:th}] "{method} {path} HTTP/1.1" {code:d} {length:d} "-" "{ua}"'
>>> result = parse.search(pattern, log)
>>> result['ip']
'162.158.167.131'
>>> result['ua']
'Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)'
>>> print(result.named)
{'ip': '162.158.167.131', 'dt': datetime.datetime(2020, 8, 11, 6, 47, 30, tzinfo=<FixedTzOffset +0800 8:00:00>), 'method': 'GET', 'path': '/tags/Tenacity', 'code': 301, 'length': 194, 'ua': 'Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)'}

运行效果如下图所示：

非常轻松地就把需要的字段全部以字典的形式提取了出来。并且日期、数字可以直接提取成对应的形式，免去了事后转换的麻烦。

只要我们自己系统的日志，按照统一的规范来写，那么也可以非常轻易地提取出来。例如我在爬虫多次爬取失败时，写出如下一条日志：

2020-08-11 13:21:41 [scrapy.extensions.logstats] INFO: [多次失败] https://xxx.com/aa/bb\n

那么我可以把提取的规则写为：

pattern = '[多次失败] {url}\n'

运行效果如下图所示：

关于 parse 的更多用法，请看它的 Readme^[1]。

参考资料

[1]

Readme: https://github.com/r1chardj0n3s/parse

无法从传输连接中读取数据: net_io_connectionclosed。_传输不懂，何以懂通信？

传输网作为通信网的大动脉，地位非常重要，但很多小伙伴都被传输网的一堆概念搞得晕头转向。今天我们试着来梳理一下。

[收藏] Customer-material info record

Question: Hi SAP fans I am very new in SD-MM area and wondering where to maintain the customer-material infor record? and what is it used

windows下搭建php开发环境,教你如何在Windows下搭建PHP开发环境

好久没更新博客了，这几天给电脑重新搭建了一下apache+php+mysql的php开发环境，那今天写一写，跟大家分享一下是如何搭建的。 PHP集成开发环境有很多种，比如XAMPP、ApmServ等“傻瓜式”集成安装包，我们只需要一键安装就能轻松把PHP环境给搭建好

6-5 顺序表操作集 (20 分)（创建，查找，插入，删除）以及顺序表的理解

顺序表：线性表的顺序存储线性表的顺序存储是指在内存中用地址连续的一块存储空间顺序存放线性表的各元素在程序设计语言中，一维数组在内存中占用的存储空间就是一组连续的存

无涯教程：Docker - PHP安装

我们可以使用docker运行php应用程序。在以下步骤中，我们将创建并运行php应用程序。 $ docker build -t php-app。在下面的屏幕图中，我们正在创建docker镜像。

java 目录遍历漏洞_Sparkjava Framework 文件遍历漏洞(CVE-2016-9177)分析与探究

Author:dawu(知道创宇404实验室) data:2016-11-16 0x00 漏洞概述 1.漏洞简介 Sparkjava是一款小型的web框架，它能够让你以很少的代码构建出一个java web应用。近日，某国外安全研究人员发现

一线运维 DBA 五年经验常用 SQL 大全

一线运维 DBA 五年经验常用 SQL 大全（一） 1.查看表空间使用率。 set line 220 select total.tablespace_name,round(total.MB, 2) as Total_MB,round(total.MB - fre

大数据技术之Zookeeper

1.概述

Cousera Recommender System专项课程 Assignment1

1.Mean Rating: Calculate the mean rating for each movie, order with the highest rating listed first, and submit the top three (along with the mean

postman入门到集成newman

postman入门简介接口测试工具特点：简单易用：有多种查看请求包和响应包的格式，美化beautify功能，配置常用断言，如：状态码，json断言。