Crawler：基于BeautifulSoup庫+requests庫實作爬取2018最新電影《後來的我們》熱門短評

2021-10-26 23:50:00

輸出結果

Crawler：基于BeautifulSoup庫+requests庫實作爬取2018最新電影《後來的我們》熱門短評

實作代碼

# -*- coding: utf-8 -*-

#Py之Crawler：利用BeautifulSoup庫實作爬取2018最新電影《後來的我們》熱門短評

import time

import requests

import csv

from bs4 import BeautifulSoup

head = 'https://movie.douban.com/subject/'

middle = '/comments?start='

zr_tail = '&limit=20&sort=new_score&status=P&percent_type='

names = []

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

}

zr_urls = ['最熱']

def createUrls():

for j in range(1, 34, 2):

name = names[j]

#print(name)

for i in range(0, 100, 20):

zr_urls.append(head + str(name) + middle + str(i) + zr_tail)

#print(zr_urls)得到某個電影短評位址(預設最熱排序)，如

https://movie.douban.com/subject/27063335/comments?start=0&limit=20&sort=new_score&status=P&percent_type=

def readName():

with open('爬取電影名稱.txt', mode='r', encoding='utf-8') as f:

for i in f.readlines():

i = i.strip('\n')

names.append(i)

#print(names)

readName()

createUrls()

get_comments(zr_urls) #傳入zr_urls

Crawler：基于BeautifulSoup庫+requests庫實作爬取2018最新電影《後來的我們》熱門短評

實作代碼

繼續閱讀

今日頭條iOS用戶端啟動速度優化技術調研實測資料

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入