python保存图片到指定路径_python 图片爬虫抓取图片系列二——爬取指定网页中的图片精细版...

2023-08-01 09:27:44

来自《Python项目案例开发从入门到实战》(清华大学出版社郑秋生夏敏捷主编)中爬虫应用——抓取百度图片

本文使用 request 库来爬取某个网站的图片，前面几章博客介绍了如何使用 urllib 库来抓取网页，本文主要使用的是 request 库来抓取网页内容，使用方法基本一致，但 request 方法相对简单一些

爬虫的基本思路别忘了：

1. 指定要抓取的链接然后抓取网站源代码

2. 提取你想要的内容，比如你想要爬取图片信息，可以选择用正则表达式过滤或者使用提取

python保存图片到指定路径_python 图片爬虫抓取图片系列二——爬取指定网页中的图片精细版...

标签的方法

3. 循环得到的要爬取内容列表，保存文件

这里的代码和本人博客前几章(图片爬虫系列一)的差异在于：

1. 提取网页使用的是 reques 库

2. 保存图片的时候后缀不固定使用 png 或者 jpg，而是使用图片本身的后缀名

3. 保存图片的时候不使用 urllib.request.urlretrieve 函数，而是使用文件的读写操作来保存图片

具体代码如下图所示：

# 使用requests、bs4库下载华侨大学主页上的所有图片import osimport requestsfrom bs4 import BeautifulSoupimport shutilfrom pathlib import Path  # 关于文件路径操作的库，这里主要为了得到图片后缀名# 该方法传入url,返回url的html的源代码def getHtmlCode(url):    # 伪装请求的头部来隐藏自己    headers = {        'User-Agent': 'MMozilla/5.0(Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0'    }    # 获取网页    r = requests.get(url, headers=headers)    # 指定网页解析的编码格式    r.encoding = 'UTF-8'    # 获取url页面的源代码字符串文本    page = r.text    return page# 该方法传入html的源代码，通过截取其中的img标签，将图片保存到本机def getImg(page, localPath):    # 判断文件夹是否存在，存在则删除，最后都要重新新的文件夹    if os.path.exists(localPath):        shutil.rmtree(localPath)    os.mkdir(localPath)    # 按照Html格式解析页面    soup = BeautifulSoup(page, 'html.parser')    # 返回的是一个包含所有img标签的列表    imgList = soup.find_all('img')    x = 0    # 循环url列表    for imgUrl in imgList:        try:            # 得到img标签中的src具体内容            imgUrl_src = imgUrl.get('src')            # 排除 src='' 的情况            if imgUrl_src != '':                print('正在下载第 %d : %s 张图片' % (x+1, imgUrl_src))                # 判断图片是否是从绝对路径https开始，具体为什么这样操作可以看下图所示                if "https://" not in imgUrl_src:                    m = 'https://www.hqu.edu.cn/' + imgUrl_src                    print('正在下载：%s' % m)                    # 获取图片                    ir = requests.get(m)                else:                    ir = requests.get(imgUrl_src)                # 设置Path变量，为了使用Pahtlib库中的方法提取后缀名                p = Path(imgUrl_src)                # 得到后缀，返回的是如 '.jpg'                p_suffix = p.suffix                # 用write()方法写入本地文件中，存储的后缀名用原始的后缀名称                open(localPath + str(x) + p_suffix, 'wb').write(ir.content)                x = x + 1        except:            continueif __name__ == '__main__':    # 指定爬取图片链接    url = 'https://www.hqu.edu.cn/index.htm'    # 指定存储图片路径    localPath = './img/'    # 得到网页源代码    page = getHtmlCode(url)    # 保存图片    getImg(page, localPath)

注意，为什么判断图片链接是否从 "https://" 开始主要是因为我们下载图片需要完整的绝对路径，而这个得来需要看原网页代码，选择一张图片，点击 html 所在的代码，鼠标放着，就可以看到绝对路径，然后根据这个绝对路径设置需要添加的缺少部分，如下图所示：

python保存图片到指定路径_python 图片爬虫抓取图片系列二——爬取指定网页中的图片精细版...

python保存图片到指定路径_python 图片爬虫抓取图片系列二——爬取指定网页中的图片精细版...

继续阅读

.net后台怎么提取html中的多个图片的绝对地址_python爬虫多线程实战：爬取美桌1080p壁纸图片...

MATLAB中肤色分割算法_100 行 Python 代码实现人体肤色检测

MATLAB中肤色分割算法_Python应用：100 行代码实现人体肤色检测

python保存图片到指定路径_卧槽！Pdf转Word用Python轻松搞定！

python 与_Python爬取拉勾网python职位数据

ImageMagick将多张图片拼接成一张图片_python给图片加水印很简单！你选Opencv还是PIL？...首先想的是用OpenCV-Python使用PIL处理图像添加水印效果很好总结

python保存图片到指定路径_python 抓取页面数据，并保存图片文本到指定目录文件夹...

python爬取图片_利用python爬取知乎小姐姐图片

python f.write 保存图片到路径_初学Python-只需4步，爬取网站图片（附py文件）

python爬取图片_用Python爬取知乎妹子图片