Python爬蟲：擷取bing必應桌面首頁的每日一圖(僅做學習用)

(目錄)

需求

老闆：微軟必應https://cn.bing.com/ 首頁的每日一圖看着不錯，能不能自動擷取

我：我試試

網站分析

我們檢視網頁元素，不難發現背景圖就在類名為

.img_cont

的标簽下

可是搜尋源代碼 view-source:https://cn.bing.com/

<div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&amp;rf=LaDigue_1920x1080.jpg); opacity: 1;">

發現style屬性中的資料不能直接擷取，需要使用到正則提取url

換個方法，試試搜尋圖檔位址:

https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg

發現有三個地方

第一處是在header中

<link rel="preload" href="https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&amp;rf=LaDigue_1920x1080.jpg&amp;qlt=50" as="image" id="preloadBg" />

第二處在類名為

img_cont

的标簽中

<div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&amp;rf=LaDigue_1920x1080.jpg); opacity: 1;">

第三處在js代碼中

"Image":{"Url":"https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg\u0026rf=LaDigue_1920x1080.jpg",

代碼實作

通過以上分析，我們可以發現，通過

id="preloadBg"

的元素擷取比較友善

此處需要加一個請求頭，避免擷取不到正常的網頁源代碼

代碼示例

# -*- coding: utf-8 -*-
"""
@File    : demo.py
@Date    : 2022-10-26
@Author  : Peng Shiyu
"""

import parsel
import requests


def get_bing_image():
    url = 'https://cn.bing.com'

    headers = {
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
    }

    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding

    sel = parsel.Selector(res.text, base_url=url)

    return sel.css('#preloadBg::attr(href)').extract_first()


if __name__ == '__main__':
    image_url = get_bing_image()
    print(image_url)
#     https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&qlt=50

進一步

我們發現，圖檔還有一些介紹資訊，我們看看能不能拿到

再次檢視源碼，我們可以發現，網頁中有一個js的變量，包含了頁面中桌面的資訊

// 截取部分代碼
var _model ={"Headline":"山上的幽靈","Title":"巴爾幹中央國家公園的布羅肯現象，保加利亞"}

我們可以通過

re

正規表達式解析這個json字元串，擷取更多的資料

# -*- coding: utf-8 -*-
"""
@File    : demo.py
@Date    : 2022-10-26
@Author  : Peng Shiyu
"""
import json
import re

import requests


def get_bing_image():
    url = 'https://cn.bing.com'

    headers = {
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
    }

    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding

    ret = re.search("var _model =(\{.*?\});", res.text)
    if not ret:
        return

    data = json.loads(ret.group(1))
    image_content = data['MediaContents'][0]['ImageContent']

    return {
        'headline': image_content['Headline'],
        'title': image_content['Title'],
        'description': image_content['Description'],
        'image_url': image_content['Image']['Url'],
        'main_text': image_content['QuickFact']['MainText']
    }


if __name__ == '__main__':
    res = get_bing_image()
    print(json.dumps(res, ensure_ascii=False, indent=2))

輸出

{
  "headline": "山上的幽靈",
  "title": "巴爾幹中央國家公園的布羅肯現象，保加利亞",
  "description": "萬聖節快到了，今天的照片也非常應景，展示了一隻“幽靈”，也就是布羅肯現象。盡管看着靈異，但布羅肯現象并非超自然現象。這是一位觀察者被投射在陽光對面雲層上的陰影。布羅肯現象很少見，但如果你在黎明時分爬上薄霧彌漫的山坡，則有可能幸運地目睹這種現象。隻要滿足條件，布羅肯現象可以出現在任何地方。在德國哈爾茨山脈的布羅肯峰，當地傳說濃霧彌漫的山間有幽靈出沒。1780年，約翰·西爾伯施拉格在此觀察到了“幽靈”，對其進行了描述記錄，并将其命名為“布羅肯現象”。此後，布羅肯現象便常常被記錄在有關該地區的文獻之中。",
  "image_url": "https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg",
  "main_text": "布羅肯現象出現在日出與日落時的高山上，目前面彌漫着霧氣時，太陽光将人的背影衍射在霧氣上，浮現出彩虹輪廓。"
}

接口擷取

接口位址：https://cn.bing.com/HPImageArchive.aspx?format=js&idx=0&n=1&mkt=zh-CN

參數

參數	含義
format	傳回資料形式 js - json xml - xml
idx	截止天數 0-今天 -1 - 截止至明天 1 截止至昨天
n	傳回數量
mkt	地區 zh-CN - 國區

接口來源 Python - 定時自動擷取 Bing 首頁桌面

其他資源

有小夥伴已經做了必應桌面圖檔網站

Python爬蟲：擷取bing必應桌面首頁的每日一圖(僅做學習用)

需求

網站分析

代碼實作

進一步

接口擷取

其他資源

繼續閱讀

如何成為一名.net 工程師?

tabpanel 使用問題

為什麼把CSS放頭部，script放下面

關于 underscore 中模闆引擎的應用示範樣例

underscore 模闆标簽修改。

Ajax——模闆引擎

使用underscore的template自定義模闆

underscore模闆功能的使用和學習

CSS之折疊菜單

web開發之前後端渲染

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

七牛雲-C#SDK-上傳-前期準備

403 Forbidden，You don't have permission to access / on this server.Forbidden

vue-cli簡介（中文翻譯）

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題