【Python爬虫】：Xpath表达式的使用

2021-01-30 10:11:38

假设我爬取了这样的一个html网页，前面的前端代码如下所示：

<html xmlns="http://www.w3.org/1999/xhtml">
 <head> 
  <title>OK资源采集-最新影视资源大全</title> 
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 
  <meta name="keywords" content="OK资源采集-最新影视资源大全" /> 
  <meta name="description" content="OK资源采集-最新影视资源大全" />
  <script>var SitePath='/',SiteAid='10',SiteTid='',SiteId='';</script><link href="/template/okokzy/css/home.css" rel="stylesheet" type="text/css" /><script src="/template/okokzy/js/jquery_ldg.js"></script><script src="/template/okokzy/js/jquery.zclip.min.js"></script><script src="/template/okokzy/js/ldg.js"></script><script src="/js/jq/jquery.lazyload.js"></script><script src="/template/okokzy/js/home.js"></script>


 </head>

我们想要获取其中的script标签后面的内容，因此我们可以使用Xpath来获取，假设我们想要获得第一个script标签处的值value，就可以使用表达式：

Xpath（/html/head/script/text()）[0]

这个表达式的含义是输出在html下的head下的第一个script标签处的文字，因为我们前面的代码：

Xpath（/html/head/script/text()）

会输出所有以script开头的对象，因此加上[0]限定为第一个script后面的文字。

因此输出为：

var SitePath='/',SiteAid='10',SiteTid='',SiteId='';

在Xpath表达式当中'//' 表示前面的省略不计，直接跳过两层或者多层拿到后面的标签中所对应的对象。

二.标签属性的使用

假设我们想要爬取font标签当中具备某个color属性的文字内容，如下所示：

<font color="#000000">OK资源站 </font><font color="#FF0000">HTTPS</font><font color="#000000"> 站请进入&gt;&gt;&gt;</font></a></font><font size=

r_two=tree.xpath('//font[@color="#000000"]/text()')

import requestsfrom lxml import etree

post_url = 'https://www.okzy10.com/'#cookie='lastCity=100010000; __zp_stoken__=ce26bZyQcLhoDK1A7M0RzPzMQEDJzHHpAQCJkUHtpSSFDSCkNeko0HBZxSywqeBxlHh8PIE4CLwgTSWsacwcdbEMNUBBzE2APASkfAktgOFskSn9HCTgkLmE7GFxecS8MGE4FGX99IHdsQHV5YQ%3D%3D; __c=1610949395; __g=-; __l=l=%2Fwww.zhipin.com%2F&r=https%3A%2F%2Fwww.google.com%2F&g=&s=3&friend_source=0&s=3&friend_source=0; __a=13532184.1600828409.1610683874.1610949395.205.23.3.205; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1610082805,1610683875,1610949395,1610949407; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1610949407'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',
}#解析本地的html#使用etree.parse#解析网页上的html#使用etree.HTMLreq = requests.get(post_url,headers=headers)#print(req.text)with open('ok_resource.html','w',encoding='utf-8') as fp:
    fp.write(req.text)#使用xpath表达式对etree对象进行解析parser = etree.HTMLParser(encoding="utf-8")
tree=etree.parse('ok_resource.html',parser=parser)
r=tree.xpath('/html/head/script/text()')[0]
r_two=tree.xpath('//font[@color="#000000"]/text()')print(r)print(r_two)

【Python爬虫】：Xpath表达式的使用

二.标签属性的使用

继续阅读

Python爬虫之网站超清图片爬取(2021.3.29)

Python入门级爬取百度百科词条

16Python爬虫---Scrapy常用命令

Python爬虫基本库的使用第二章基本库的使用

Python爬虫（四）lxml、xpath安装模块导入查找节点属性查找 @ 符号使用谓语选取未知节点获取文本和属性

爬虫学习之04-request模块获取糗事百科一张热图

python3下用selenium库和chrome的headless模式实现网页抓取（注释中有用phantomJS的小段代码）

【Python爬虫案例学习19】多进程爬取某图片网站

python爬虫实战之爬取成语大全

【爬取百度首页】-将整个html源码保存-headers使用一、网页分析二、代码实现与步骤三、结果分析

爬取百度贴吧

爬取猫眼电影--静态网页反爬与多线程/多进程爬取网页解析爬取代码多线程与多进程

requests模块进行人人网模拟登陆

2023爬虫学习笔记 -- 多线程操作

Python爬虫学习（1）

Boss直聘Python爬虫实战