天天看點

4.python爬蟲浏覽器僞裝技術

#python爬蟲的浏覽器僞裝技術
#爬取csdn部落格,會傳回403錯誤,因為對方伺服器會對爬蟲進行屏蔽,此時需要僞裝成浏覽器才能爬取
#浏覽器僞裝,一般通過報頭進行。

import urllib.request
url="http://blog.csdn.net/bingoxubin/article/details/78503370"
headers=("User-Agent","浏覽器中User-Agent的值")
opener=urllib.request.build_opener()
opener.add_handlers=[headers]
data=opener.open(url).read()
print(len(data))