天天看點

python爬蟲中涉及json資料的處理

在執行爬蟲項目的過程中,有時傳回的不是一個html頁面而是json格式資料,此時對資料的解析非常重要。

1.Json格式資料的爬取

  采用request對以上的url進行爬取:

import  requests

content=requests.get(url,headers=headers).content

在爬取的過程中,考慮到需要模拟真實的使用者,是以需要添加cookie或者header參數。

2.對爬取的json格式資料的解析

  資料已經爬取下來,存放在contend裡面,接下來就是對資料的處理

可以在 www.bejson.com 中使json資料能夠結構化顯示

對于這個資料的解析可以采用采用正規表達式解析

import re

project = re.findall(r\'"title":(.*?),\', content)

使用正則提取title字段