某條微網誌評論資料爬取

2023-04-15 01:52:39

1,微網誌網頁版爬取難度較大，本次爬取手機版評論資料：m.weibo.cn;

2,評論網頁為動态的，檢視方式network----XHR----請求對應的url

某條微網誌評論資料爬取

注：url中的id,mid與微網誌位址中的字尾一緻，評論往下滑，20條之後，會出現新的url,新的url中多了max_id,該參數類似分頁參數，在preview的data下面有，該max_id即下一條url中的max_id

import requests
import json
import pprint
import pandas as pd
import re


#伺服器傳回的内容用變量接收
response=requests.get('https://m.weibo.cn/comments/hotflow?id=4664928428097689&mid=4664928428097689&max_id_type=0')

print(response.text)
print(json.loads(response.text))
pprint.pprint(json.loads(response.text))

#字典資料
data=json.loads(response.text)
pprint.pprint(data)
users=data['data']['data']


lname=[]
ltext=[]
for user in users:
    #print(user['user']['id'])
    #print(user['user']['screen_name'])
    #print(user['text'])
    text=user['text']
    text=re.sub(r'<[^>]*>','',user['text'])  #去除圖檔
    name=user['user']['screen_name']
    
    print(name)
    print(text)
    lname.append(name)
    ltext.append(text)
    
df=pd.DataFrame({'name':lname,'comment':ltext})
df=df[['name','comment']]

df.to_excel(r'D:\comment.xlsx')

某條微網誌評論資料爬取

繼續閱讀

v2ex的簡單爬蟲

Python漫畫爬蟲開源 66漫畫 AJAX，包含資料庫連接配接，圖檔下載下傳處理

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

sort()函數到底是怎樣進行數字排序的