![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiI9s2RkBnVHFmb1clWvB3MaVnRtp1XlBXe0xCMy81dvRWYoNHLwEzX5xCMx8FesU2cfdGLwMzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsQTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cGcq5CN5ETMxMmYjZjYlNmZ5gTNzYzXyQzN0ATM2IzLcBTMyIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjLyM3Lc9CX6MHc0RHaiojIsJye.jpg)
(目錄)
需求
老闆:微軟必應https://cn.bing.com/ 首頁的每日一圖看着不錯,能不能自動擷取
我:我試試
網站分析
我們檢視網頁元素,不難發現背景圖就在類名為
.img_cont
的标簽下
可是搜尋源代碼 view-source:https://cn.bing.com/
<div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg); opacity: 1;">
發現style屬性中的資料不能直接擷取,需要使用到正則提取url
換個方法,試試搜尋圖檔位址:
https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg
發現有三個地方
第一處是在header中
<link rel="preload" href="https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&qlt=50" as="image" id="preloadBg" />
第二處在類名為
img_cont
的标簽中
<div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg); opacity: 1;">
第三處在js代碼中
"Image":{"Url":"https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg\u0026rf=LaDigue_1920x1080.jpg",
代碼實作
通過以上分析,我們可以發現,通過
id="preloadBg"
的元素擷取比較友善
此處需要加一個請求頭,避免擷取不到正常的網頁源代碼
代碼示例
# -*- coding: utf-8 -*-
"""
@File : demo.py
@Date : 2022-10-26
@Author : Peng Shiyu
"""
import parsel
import requests
def get_bing_image():
url = 'https://cn.bing.com'
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding
sel = parsel.Selector(res.text, base_url=url)
return sel.css('#preloadBg::attr(href)').extract_first()
if __name__ == '__main__':
image_url = get_bing_image()
print(image_url)
# https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&qlt=50
進一步
我們發現,圖檔還有一些介紹資訊,我們看看能不能拿到
再次檢視源碼,我們可以發現,網頁中有一個js的變量,包含了頁面中桌面的資訊
// 截取部分代碼
var _model ={"Headline":"山上的幽靈","Title":"巴爾幹中央國家公園的布羅肯現象,保加利亞"}
我們可以通過
re
正規表達式解析這個json字元串,擷取更多的資料
# -*- coding: utf-8 -*-
"""
@File : demo.py
@Date : 2022-10-26
@Author : Peng Shiyu
"""
import json
import re
import requests
def get_bing_image():
url = 'https://cn.bing.com'
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding
ret = re.search("var _model =(\{.*?\});", res.text)
if not ret:
return
data = json.loads(ret.group(1))
image_content = data['MediaContents'][0]['ImageContent']
return {
'headline': image_content['Headline'],
'title': image_content['Title'],
'description': image_content['Description'],
'image_url': image_content['Image']['Url'],
'main_text': image_content['QuickFact']['MainText']
}
if __name__ == '__main__':
res = get_bing_image()
print(json.dumps(res, ensure_ascii=False, indent=2))
輸出
{
"headline": "山上的幽靈",
"title": "巴爾幹中央國家公園的布羅肯現象,保加利亞",
"description": "萬聖節快到了,今天的照片也非常應景,展示了一隻“幽靈”,也就是布羅肯現象。盡管看着靈異,但布羅肯現象并非超自然現象。這是一位觀察者被投射在陽光對面雲層上的陰影。布羅肯現象很少見,但如果你在黎明時分爬上薄霧彌漫的山坡,則有可能幸運地目睹這種現象。隻要滿足條件,布羅肯現象可以出現在任何地方。在德國哈爾茨山脈的布羅肯峰,當地傳說濃霧彌漫的山間有幽靈出沒。1780年,約翰·西爾伯施拉格在此觀察到了“幽靈”,對其進行了描述記錄,并将其命名為“布羅肯現象”。此後,布羅肯現象便常常被記錄在有關該地區的文獻之中。",
"image_url": "https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg",
"main_text": "布羅肯現象出現在日出與日落時的高山上,目前面彌漫着霧氣時,太陽光将人的背影衍射在霧氣上,浮現出彩虹輪廓。"
}
接口擷取
接口位址:https://cn.bing.com/HPImageArchive.aspx?format=js&idx=0&n=1&mkt=zh-CN
參數
參數 | 含義 |
---|---|
format | 傳回資料形式 js - json xml - xml |
idx | 截止天數 0-今天 -1 - 截止至明天 1 截止至昨天 |
n | 傳回數量 |
mkt | 地區 zh-CN - 國區 |
接口來源 Python - 定時自動擷取 Bing 首頁桌面
其他資源
有小夥伴已經做了必應桌面圖檔網站