1.擷取使用者接口

轉發清單使用者請求如下：

微網誌資料爬蟲——擷取特定ID的熱門轉發評論使用者清單（五）plus1.擷取使用者接口2.分析擷取方法3.資料結果如下

評論清單使用者請求如下：

微網誌資料爬蟲——擷取特定ID的熱門轉發評論使用者清單（五）plus1.擷取使用者接口2.分析擷取方法3.資料結果如下

通過設定不同參數，來選擇不同接口擷取資料

if(type_name=="mblog"):
    url = "https://weibo.com/aj/v6/%s/info/big?id=%s&page=%d" % (type_name, id,page_num)
elif(type_name=="comment"):
    url = "https://weibo.com/aj/v6/%s/big?id=%s&from=singleWeiBo&page=%d" % (type_name, id,page_num)

2.分析擷取方法

通過檢視網頁可知

擷取轉發清單時，通過翻頁即可擷取，同時傳回的json資料中含有總共的頁數量

微網誌資料爬蟲——擷取特定ID的熱門轉發評論使用者清單（五）plus1.擷取使用者接口2.分析擷取方法3.資料結果如下

而擷取評論清單時，雖通過page參數控制頁數，但終止條件不明确，通過分析json資料，發現規律：

當"正在加載，請稍候..."出現說明标簽正在加載，可繼續翻頁

微網誌資料爬蟲——擷取特定ID的熱門轉發評論使用者清單（五）plus1.擷取使用者接口2.分析擷取方法3.資料結果如下

當中間為空時，說明已到終止頁

微網誌資料爬蟲——擷取特定ID的熱門轉發評論使用者清單（五）plus1.擷取使用者接口2.分析擷取方法3.資料結果如下

try:
    page = r["data"]["page"]["totalpage"]
    dic_post["totalpage"] = page
    print("總頁數為：%s" % page)
    if (page_num >= int(page)):
        break
except:
    count = r["data"]["count"]
    dic_post["count"] = count
    print("總評論數為：%s" % count)
    print(html)
    if("正在加載，請稍候..." in html):
        continue
    more = html.split("<!-- 檢視更多 -->")
    if(more[1].strip()==""):
        break

3.資料結果如下

微網誌資料爬蟲——擷取特定ID的熱門轉發評論使用者清單（五）plus1.擷取使用者接口2.分析擷取方法3.資料結果如下

完整代碼如下

import json
import re
from urllib import request
import urllib
import config

def get_user(o_id,type_name):
    dic = {}
    list_repost = []
    # o_id = "1968758563"
    headers = config.get_headers()
    add = urllib.request.Request(url="https://weibo.com/u/%s?is_hot=1" % o_id, headers=headers)
    r = urllib.request.urlopen(url=add, timeout=10).read().decode('utf-8')
    links = re.findall(r'<a  action-data=\\"allowForward=1&url=https:\\/\\/weibo.com\\/%s\\/(.*?)&mid=(\d+)&' % o_id, r)
    # print(links)
    # print(len(links))
    try:
        for post_num in range(len(links)):
            print("第%d篇文章" % post_num)
            id = links[post_num][1]
            print(links[post_num][0],id)
            dic_post = {}
            repost_users_all = []
            count_num = 0
            for page_num in range(1,5):
                try:
                    print("第%d頁" % page_num)
                    if(type_name=="mblog"):
                        url = "https://weibo.com/aj/v6/%s/info/big?id=%s&page=%d" % (type_name, id,page_num)
                    elif(type_name=="comment"):
                        url = "https://weibo.com/aj/v6/%s/big?id=%s&from=singleWeiBo&page=%d" % (type_name, id,page_num)
                    print(url)
                    add = urllib.request.Request(url=url,headers=headers)
                    r = urllib.request.urlopen(url=add, timeout=10).read().decode("utf8")
                    r = json.loads(r)
                    html = r["data"]["html"]

                    repost_users = re.findall(r'<img.*?usercard="id=(.*?)"', html)
                    # print(len(repost_users))
                    # print(repost_users)
                    count_num = count_num + len(repost_users)
                    repost_users_all.extend(repost_users)
                    try:
                        page = r["data"]["page"]["totalpage"]
                        dic_post["totalpage"] = page
                        print("總頁數為：%s" % page)
                        if (page_num >= int(page)):
                            break
                    except:
                        count = r["data"]["count"]
                        dic_post["count"] = count
                        print("總評論數為：%s" % count)
                        print(html)
                        if("正在加載，請稍候..." in html):
                            continue
                        more = html.split("<!-- 檢視更多 -->")
                        if(more[1].strip()==""):
                            break
                except:
                    break
            dic_post["mid"] = id
            dic_post["users"] = repost_users_all
            dic_post["user_len"] = len(dic_post["users"])
            list_repost.append(dic_post)
    except:
        pass
    dic["o_id"] = o_id
    dic["repost_data"] = list_repost
    return dic



if __name__ == '__main__':
    dic = get_user("1906123125","mblog")
    json_f = open("data/data_九州億品_mblog.json","w")
    json.dump(dic, json_f,indent=4)
    dic = get_user("1906123125", "comment")
    json_f = open("data/data_九州億品_comment.json", "w")
    json.dump(dic, json_f, indent=4)

微網誌資料爬蟲——擷取特定ID的熱門轉發評論使用者清單（五）plus1.擷取使用者接口2.分析擷取方法3.資料結果如下

1.擷取使用者接口

2.分析擷取方法

3.資料結果如下

繼續閱讀

SOC體系建設學習筆記0x00 背景0x01 目标願景0x01 架構設計0x02 SOC營運名額0x03 SOC 使用場景0x04 參考場景

大資料安全相關概念（上）

天涯論壇——python網絡爬蟲下載下傳論壇關鍵字帖文（一）前言内容代碼

微網誌資料處理——擷取廣告使用者資料集(三)1.篩選廣告話題2.擷取廣告使用者3.擷取使用者資訊4.标注廣告使用者

微網誌資料處理——處理僵屍使用者資料集(二)1.資料集展示2.處理資料集3.展示結果

微網誌資料爬蟲——擷取特定ID的粉絲和關注（二）1.通過o_id擷取p_id2.擷取使用者的關注清單3.擷取使用者的粉絲清單

微網誌資料處理——擷取僵屍使用者資料集(一)1.手工查找僵屍使用者2.疊代周遊僵屍使用者關注粉絲清單3.标記僵屍使用者集

微網誌模型訓練——僵屍使用者識别(一)1.資料導入2.模型訓練3.可視化輸出

微網誌模型訓練——僵屍使用者識别(二)

随着美軍偵察機在南海的活動日益頻繁，設立南海防空識别區也變得越來越迫切。根據南海戰略态勢感覺平台（SCSPI）資料統計，

出身即落後，美國新一代M10輕型坦克在美國陸軍248歲生日之際，于弗吉尼亞州貝爾沃堡的美國陸軍國家博物館上，美國陸軍正式

美軍機抵近中國偵察，外媒諷刺：西媒仍會說是中國“咄咄逼人”據外媒報道稱，日前根據“南海戰略态勢感覺”釋出的消息稱，美軍一

企業安全态勢感覺系統的實作方法與技術（附大量案例）

這個注釋有點傷人，美國仙童公司(Fairchild-Hiller)/共和航空競标MD二等人F-X/F-15計劃的方案。吸

網安加·百家講壇 | 劉志誠：威脅情報和态勢感覺的生态觀