Crawler：基于requests庫+json庫+40行代碼實作爬取貓眼榜單TOP100榜電影名稱主要資訊

2021-10-26 23:50:00

輸出結果

Crawler：基于requests庫+json庫+40行代碼實作爬取貓眼榜單TOP100榜電影名稱主要資訊

實作代碼

# -*- coding: utf-8 -*-

#Py之Crawler：實實在在的40行代碼爬取貓眼榜單TOP100榜電影名稱主要資訊——Jason niu

import requests

import re

import json

from requests.exceptions import RequestException

from multiprocessing.dummy import Pool

headers = {'User-Agent':'Mozilla/5.0 '}

def get_one_page(url):

try:

res = requests.get(url,headers = headers)

if res.status_code == 200:

return res.text

return None

except RequestException:

def parse_one_page(html):

pattern = re.compile('<dd>.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name"><a'

+'.*?>(.*?)</a>.*?star">(.*?).*?releasetime">(.*?)'

+'.*?integer">(.*?).*?fraction">(.*?).*?</dd>',re.S)

items = re.findall(pattern,html)

for item in items:

yield{

'index': item[0],

'image': item[1],

'title': item[2],

'actor': item[3].strip()[3:],

'time': item[4].strip()[5:],

'score': item[5] + item[6]

}

def write_to_file(content):

with open ('result.txt', 'a',encoding='utf-8') as f:

f.write(json.dumps(content,ensure_ascii=False) + '\n')

f.close()

def main(offset):

url = 'http://maoyan.com/board/4?offset=' + str(offset)

html = get_one_page(url)

for item in parse_one_page(html):

print(item)

write_to_file(item)

if __name__ == '__main__':

p = Pool()

p.map(main,[i*10 for i in range(10)])

Crawler：基于requests庫+json庫+40行代碼實作爬取貓眼榜單TOP100榜電影名稱主要資訊

輸出結果

實作代碼

繼續閱讀

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

vue-cli簡介（中文翻譯）

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題

在python中建立excel并寫入