python爬虫爬取豆瓣电影信息

2023-05-14 11:39:09

我们准备使用python的requests和lxml库，直接安装完之后开始操作

目标爬取肖申克救赎信息->传送门

导入库

import requests
from lxml import etree

给出链接

url=‘https://movie.douban.com/subject/1292052/?tag=%E7%BB%8F%E5%85%B8&from=gaia_video’

获取网页html前端代码一行搞定，在requests中已经封装好了

data = requests.get(url).text

lxml库中封装了解析下载页面数据的函数

s = etree.HTML(data)

然后我们到豆瓣中获取需要爬取数据的xpath

python爬虫爬取豆瓣电影信息

右键->copy->xpath我们就拿到了这样的一串数据

//*[@id="content"]/h1/span[1]

然后我们获取数据内容

film = s.xpath('//*[@id="content"]/h1/span[1]/text()')

注意最后面的/text()是获取文本类型的数据不然会出错

最后直接print(film)即可

完整代码如下

import requests
from lxml import etree
url = 'https://movie.douban.com/subject/1292052/?tag=%E7%BB%8F%E5%85%B8&from=gaia_video'    # 定义url
data = requests.get(url).text   # 获取全部html
s = etree.HTML(data)

film = s.xpath('//*[@id="content"]/h1/span[1]/text()')
print(film)

进阶

接下来我们想爬取主演

在演员上右键copy -> copy xpath

我们会有这样一串xpath

//*[@id="info"]/span[3]/span[2]/span[1]/a
//*[@id="info"]/span[3]/span[2]/span[2]/a
//*[@id="info"]/span[3]/span[2]/span[3]/a
……

我们发现这一组xpath似乎是封装在一个大的span标签数组之中，所以我们直接取拿span[2]里面的a/text()

actor = s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')

我们获得了以下的运行结果，直接可以获取列表中的全部标签（删去最后的span数组和a标签）之后我们可以直接拿到当前页面的所有的电影名称。

python爬虫爬取豆瓣电影信息

这里需要注意，因为当前我们联系的豆瓣网页中所有的电影的标签都是封装在

标签之中的所以他们的@title内容可以通过直接访问父数组得到

看代码

import requests
from lxml import etree

url = 'https://movie.douban.com/top250'    # 定义url
data = requests.get(url).text   # 获取全部html
s = etree.HTML(data)
film = s.xpath('//*[@id="content"]/div/div[1]/ol/li')   # 拿到所有的li标签

for div in film:
    film_name = div.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]    # [0]的u作用  因为获取到的事list列表所以用这个来获取str
    film_score= div.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]
    film_msg = div.xpath('./div/div[2]/div[2]/p[2]/span/text()')[0]
    print('{} {} {}'.format(film_name,film_score,film_msg))     # 格式化输出

运行结果

python爬虫爬取豆瓣电影信息

这个代码可以直接拿过去用，自己可以运行试一试。

爬取所有的top250电影信息

过几天再写。。。。

python爬虫爬取豆瓣电影信息

进阶

爬取所有的top250电影信息

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

sort()函数到底是怎样进行数字排序的

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入