python json提取器_【编号0004】爬虫中常用到的数据提取手段

2023-07-05 12:33:56

使用爬虫抓取网上公开的网页数据时，经常需要使用各种技能去解析到手的响应。

本篇文章，重点介绍下，数据提取时，有哪些常见的方法

0. 背景交代

编程语言：Python
提取方式：Python库

1. Xpath提取HTML内容

网页的数据，几乎都是HTML格式的，当然少不了Xpath的解析了，这是解析HTML的主要方法

安装：

pip install lxml

调用：

from lxml import etree
info = etree.HTML("这里放HTML字符串")
result = info.xpath("这里放xpath规则")

语法介绍：

. 代表当前节点，通常用于逐块提取数据
.. 代表父级【上一级】标签
/ 子级内容
// 子孙级内容
[] 中括号中间用于放特定条件，示例 div[@class="demo"] class为demo的div标签
and & or & not() 与或非的三个条件
normalize-space(这里放xpath规则) 去除不可见字符并提取第一个元素的函数

更多教程链接：xpath教程【spbeen】爬虫之数据解析的三种方式【cnblogs】

2. 正则表达式

如果数据时在js中，xpath是无法解析到js代码中的数据的，则此时，推荐正则表达式，提取出需要的数据

调用：

import re

re是python的内置库

示例：

patternstr = "base64,(.*?)'" 
result = re.search(pattern, html)

语法介绍：

元字符匹配内容

.匹配除换行符以外的任意字符w匹配字母或数字或下划线s匹配任意的空白符d匹配数字n匹配一个换行符t匹配一个制表符b匹配一个单词的结尾^匹配字符串的开始$匹配字符串的结尾W匹配非字母或数字或下划线D匹配非数字S匹配非空白符a|b匹配字符a或字符b()匹配括号内的表达式，也表示一个组[...]匹配字符组中的字符[^...]匹配除了字符组中字符的所有字符

更多教程连接：python re模块

3. JSON转换

在网页的异步数据中，通常会碰到 Json 格式的字符串，这一点是比较简单的。

调用：

import json

json是python的内置库

示例：

import json
dict_obj = json.loads("这里放json格式的字符串")
# json.loads() 返回的结果是Python的字典，所以操作方便

语法介绍：无【字典操作太简单了，不做介绍】

但是，异步加载虽然是 json 居多，但是jsonp也是有的

何为 jsonp ？这个由来就能聊很久了

简单来说，浏览器有防跨域请求的，这是为了安全着想；但是这一棒子打死了全部的跨域请求，我要是正常请求怎么办？

答：用jsonp就可以

jsonp的数据格式，和json很像，就是在json的基础之上，套上一个函数的壳，例如：

json_str = '{"method":"get"}'
jsonp_str = '''functionName({"method":"get"});'''

jsonp的字符串，就是json的字符串套了个javascript的函数。

原来如此，不难，那怎么解析呢？

答：使用正则，取出函数内json字符串，再用json转换就可以了

示例：

import json, re
pattern_str = "{.*?}"
result = re.search(pattern_str, “jsonp字符串”)
dict_obj = json.loads(result[0])

效果图如下：

python json提取器_【编号0004】爬虫中常用到的数据提取手段

以上就是本篇文章的全部介绍内容了

！放在最后

如果文章中有什么错误或者建议修改的地方，欢迎留言纠正和回复

如果你喜欢本篇文章，不妨关注一下我们的公众号，每周更新两篇原创技术文档，都是干货

python json提取器_【编号0004】爬虫中常用到的数据提取手段

python json提取器_【编号0004】爬虫中常用到的数据提取手段

0. 背景交代

1. Xpath提取HTML内容

2. 正则表达式

3. JSON转换

！放在最后

继续阅读

python爬虫xpath提取数据_Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）...

python爬虫xpath提取数据_Python网络爬虫项目：使用requests获取网页，通过xpath提取数据...

python爬虫xpath提取数据_python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)...

java导出模板 pdf给文本域设置字体_python玩转PDF文档

c#使用正则表达式获取TR中的多个TD_python爬虫学习笔记：XPath语法和使用示例python爬虫：XPath语法和使用示例选取节点常用路径表达式：实例查找特定的节点选取未知节点实例选取若干路径实例使用技巧爬取豆瓣图书TOP250

python爬虫xpath提取数据_python爬虫三大解析库之XPath解析库通俗易懂详讲

fegin需要实现类_解锁新技能，python与cmake结合，实现自动生成工厂类生成文件写入注释写入头文件写入函数功能验证效果提取路径12等符号解析路径自动调用总结

python爬取去哪网数据_Python爬虫入门：使用Python爬取网络数据

python 最大值的索引_第7天：Python 数据结构序列第6天：Python 模块和包第5天：Python 函数第4天：Python 流程控制第3天：Python 变量与数据类型第2天：Python 基础语法第1天：Python 环境搭建