在執行爬蟲項目的過程中,有時傳回的不是一個html頁面而是json格式資料,此時對資料的解析非常重要。
1.Json格式資料的爬取
采用request對以上的url進行爬取:
import requests
content=requests.get(url,headers=headers).content
在爬取的過程中,考慮到需要模拟真實的使用者,是以需要添加cookie或者header參數。
2.對爬取的json格式資料的解析
資料已經爬取下來,存放在contend裡面,接下來就是對資料的處理
可以在 www.bejson.com 中使json資料能夠結構化顯示
對于這個資料的解析可以采用采用正規表達式解析
import re
project = re.findall(r\'"title":(.*?),\', content)
使用正則提取title字段