python爬蟲中涉及json資料的處理

2021-09-18 23:50:00

在執行爬蟲項目的過程中，有時傳回的不是一個html頁面而是json格式資料，此時對資料的解析非常重要。

1.Json格式資料的爬取

采用request對以上的url進行爬取：

import requests

content=requests.get(url,headers=headers).content

在爬取的過程中，考慮到需要模拟真實的使用者，是以需要添加cookie或者header參數。

2.對爬取的json格式資料的解析

資料已經爬取下來，存放在contend裡面，接下來就是對資料的處理

可以在 www.bejson.com 中使json資料能夠結構化顯示

對于這個資料的解析可以采用采用正規表達式解析

import re

project = re.findall(r\'"title":(.*?),\', content)

使用正則提取title字段

上一篇: ES6學習筆記05-箭頭函數

下一篇: nodejs和es6中的導入導出比較