python好玩的自制项目－美桌网的王者荣耀最新英雄皮肤高清壁纸的爬取

2023-03-17 22:38:42

与上一篇相比，本项目相对比爬表情包相对难一点。上一个爬取项目是直接解析网页源码即可找到表情包的超链接，而本项目需要通过两层解析，才能找到分辨率为（1920*1080）的高清壁纸。为何如此？因为第一层解析得到的data_original（也就是图片地址）其实不是高清图，都是低画质图片还有一些.png的标题图，而真正想要获得高清壁纸的话，要进行再次解析。也就是把第一层解析出来的数据做数据分析，找出提取规律，提取出高清壁纸所在的网址。最后才能找到图片的超链接进行下载。

第一层解析网页源码和下载保存数据到本地这两个步骤与上篇爬取表情包的步骤方法是一样的，原理可直接参照：

https://blog.csdn.net/honorwh/article/details/88659738

接下来就是上本次项目的源代码了：

import requests
from bs4 import BeautifulSoup
from urllib import request
import os
import threading
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
img_list = []
URLS = []
def pick_gqbz():
    for l in range(1,6):
        urls = "http://www.win4000.com/mt/wangzherongyao_" + str(l) + str(".html")
        response = requests.get(urls, headers = headers)
        text = response.text
        soup = BeautifulSoup(text, 'lxml')
        img_list = soup.find_all("ul", attrs={"class":"clearfix"})
        temp = str(img_list).split()
        for i in range(len(temp)):
            if len(temp[i]) < 35:
                #print(len(temp[i]))
                continue
            if temp[i][6:34] == 'http://www.win4000.com/meinv':
                #print(temp[i])
                URLS.append(temp[i][6:-1])
            else:
                continue
    for k in range(len(URLS)):
        response = requests.get(URLS[k], headers = headers)
        text = response.text
        soup = BeautifulSoup(text, 'lxml')
        img_list = soup.find_all("img", attrs={"class":"pic-large"})
        a, b = str(img_list).rfind('http', 1), str(img_list).rfind('jpg', 1)
        img_url = str(img_list)[a:int(b) + 3]
        filename = img_url.split("/")[-1]
        fullpath = os.path.join("images", filename)
        while img_url[-4:] == ".gif":
            continue
        request.urlretrieve(img_url, fullpath)
        print("%s下载完成" % filename)
if __name__ == "__main__":
    pick_gqbz()

当然了，如果使用多线程下载速度会更快，这个爬虫程序还是可以进一步优化的。有空再试试，或者用其他方法来做也行。

解析方式可以不同，用到的工具库也就不同，有更好的方法欢迎交流。现在还处于初学－进阶阶段，还需继续努力。

上几张效果图（真的是高清图呢～）

python好玩的自制项目－美桌网的王者荣耀最新英雄皮肤高清壁纸的爬取

感觉数据分析也十分重要的，接下来会多注重这方面。

python好玩的自制项目－美桌网的王者荣耀最新英雄皮肤高清壁纸的爬取

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入