python爬蟲(六)_urllib2：handle處理器和自定義opener

本文将介紹handler處理器和自定義opener，更多内容請參考:python學習指南

opener和handleer

我們之前一直使用的是urllib2.urlopen(url)這種形式來打開網頁，它是一個特殊的opener(也就是子產品幫我們建好的)，opener是urllib2.OpenerDirectory的執行個體。
但是基本的urlopen()方法不支援代理、cookie等其他的HTTP/HTTPS進階功能。是以要支援這些功能：
- 使用相關的 Handler處理器 來建立特定功能的處理器對象；
- 然後通過 urllib2.build_opener() 方法來使用這些處理器對象，建立自定義opener對象；
- 使用自定義的opener對象，調用 open() 方法來發送請求。
如果程式裡所有的請求都使用自定義的opener對象，可以使用 urllib2.install_opener() 将自定義的opener對象定義為全局opener，表示如果之後凡是調用urlopen，都将使用這個opener(根據自己的需求來選擇)

簡單的自定義opener()

#-*- coding:utf-8 -*-
#12.urllib2_opener.py

import urllib2

#建構一個HTTPHandler處理器
http_handler = urllib2.HTTPHandler();

#調用urllib2.build_opener()方法，建立支援處理HTTP請求的opener
opener = urllib2.build_opener(http_handler)

#建構Request請求
request = urllib2.Request("http://www.baidu.com")

#調用自定義的opener對象的open()方法，發送request請求
response = opener.open(request)

#擷取伺服器響應内容
print(response.read())

複制

這種方式發送請求得到的結果，和使用

urllib2.urlopen()

發送HTTP/HTTPS請求得到的結果是一樣的。

如果在HTTPHandler()括号裡面增加

debuglevel=1

參數，還會将Debug Log打開，這樣程式在執行的時候，會把收包和發包的報頭在螢幕上自動列印出來，友善調試，有時可以省去抓包的工作。

#僅需要修改的代碼部分：
# 建構一個HTTPHandler 處理器對象，支援處理HTTP請求，同時開啟Debug Log，debuglevel 值預設 0
http_handler = urllib2.HTTPHandler(debuglevel=1)

複制

ProxyHandler處理器(代理設定)

使用代理IP，這是爬蟲/反爬蟲的第二大招，通常也是最好用的。

很多網站會檢測某一段時間某個IP的通路次數(通過流量統計，系統日志等)，如果通路字數多的不像正常人，它會禁止這個IP的通路。

是以我們可以設定一些代理伺服器，每隔一段時間換一個代理，就算IP被禁止，依然可以換個IP繼續爬取。

urllib2中通過ProxyHandler來設定使用代理伺服器，下面代碼說明如何使用自定義opener來使用代理：

#-*- coding:utf-8 -*-
#urllib2_proxyhandler.py


import urllib2

#建構了兩個代理Handler,一個有代理IP,一個沒有代理IP
httpproxy_handler = urllib2.ProxyHandler({"http":"120.76.55.49:8088"})
nullproxy_handler = urllib2.ProxyHandler({})

proxyswitch = True   #定義一個代理開關


#通過urllib2.build_opener()方法使用這些代理Handler對象，建立自定義opener

if proxyswitch:
    opener = urllib2.build_opener(httpproxy_handler)
else:
    opener = urllib2.build_opener(nullproxy_handler)

request = urllib2.Request("http://www.baidu.com/")

#1.如果這麼寫，隻有使用opener.open()方法發送請才使用自定義的代理，而urlopen()使用自定義代理
response = opener.open(request)

#2.如果這麼寫，就是opener應用到全局，之後所有的，不管是opener.open()還是urlopen()發送請求，都将使用自定義代理
# urllib2.install_opener(opener)
# response = urllib2.urlopen(request)

print(response.read())

複制

免費的開放代理擷取基本沒有成本，我們可以在一些代理網站上收集上收集這些免費代理，測試後如果可以用，就把它收集起來用在爬蟲上面。

免費短期代理網站舉例：

西刺免費代理IP

快代理免費代理

Proxy360代理

全網代理IP

如果代理IP足夠多，就可以像随機擷取User-Agent一樣，随機選擇一個代理去通路網站。

#-*- coding:utf-8 -*-
#14.urllib2_proxylisthandler.py

import urllib2
import random

proxy_list = [
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"}
]

#随機選擇一個代理
proxy = random.choice(proxy_list)
#使用選擇的代理建立一個代理處理器
proxy_handler = urllib2.ProxyHandler(proxy)

opener = urllib2.build_opener(proxy_handler)

urllib2.install_opener(opener)

request = urllib2.Request("http://www.baidu.com/")
response = opener.open(request)

print(response.read())

複制

但是，這些免費開放代理一般會有很多人都在使用，而且代理壽命短、速度慢，匿名度不高，HTTP/HTTPS支援不穩定等缺點(免費沒好貨)。

但是，專業爬蟲工程師或爬蟲公司會使用高品質的私密代理，這些代理通常需要找專門的代理供應商購買，再通過使用者名/密碼授權使用(舍不得孩子讨不到狼)

HTTPPasswordMgrWithDefaultRealm()

HTTPPasswordMgrWithDefaultRealm()

類建立一個密碼管理對象，用來儲存HTTP請求相關的使用者名和密碼，主要應用兩個場景：

1. 驗證代理授權的使用者名和密碼(ProxyBasicAuthHandler())

2. 驗證web用戶端的使用者名和密碼(HTTPBasicAuthHandler())

ProxyBasicAuthHandler(代理授權驗證)

如果我們使用之前的代碼來使用私密代理，會報HTTP 407錯誤，表示代理沒有通過身份驗證：

urllib2.HTTPError:HTTP Error 407：Proxy Authentication Required

複制

是以我們需要改寫代碼，通過：

HTTPPasswordMgrWithDefaultRealm() ：來儲存私密代理的使用者密碼
ProxyBasicAuthHandler() ：來處理代理的身份。

#-*- coding:utf-8 -*-
#15.urllib2_proxy2.py

import urllib2
import urllib

#私密代理授權的賬戶
user = "mr_mao_hacker"
#私密代理授權的密碼
passwd = "sffqry9r"

#私密代理IP
proxyserver = "61.23.123.43:16813"

# 1. 建構一個密碼管理對象，用來儲存需要處理的使用者名和密碼
passwdmgr = urllib2.HTTPPasswordMgrWithDefaultRealm()  

#2. 添加賬戶資訊，第一個參數是realm是與遠端伺服器相關的域資訊，一般沒人管它都是寫None，後面三個參數分别是 代理伺服器,使用者名，密碼
passwdmgr.add_password(None, proxyserver, user, passwd)

#3. 建構一個基礎使用者名/密碼驗證的ProxyBasicAuthHandler處理器對象，參數是建立的密碼管理對象
#注意：這裡不再使用普通的ProxyHandler累了。
proxyauth_handler = urllib2.ProxyBasicAuthHandler(passwdmgr)

#4. 通過build_opener()方法使用代理handler對象，建立自定義opener對象，參數包括建構的proxyauth_handler
opener = urllib2.build_opener(proxyauth_handler)

#5．建構request請求
request = urllib2.Request("http://www.baidu.com/")

#6．使用自定義的opener發送請求
response = opener.open(request)

#7．列印響應内容
print(response.read())

複制

HTTPBasicAuthHandler處理器(Web用戶端授權驗證)

有些Web伺服器(包括HTTP/FTP等)通路時，需要進行使用者身份驗證，爬蟲直接通路會報HTTP 401錯誤，表示通路身份未經授權：

urllib2.HTTPError:HTTP Error 401:Unauthorized

複制

如果我們有用戶端的使用者名和密碼，我們可以通過下面的方法去通路爬取：

# -*- coding:utf-8 -*-
import urllib
import urllib2

#使用者名
user = "test"

#密碼
passwd = "123456"

＃web伺服器IP
webserver = "18.123.123.1:16354"

#1. 建構一個使用者密碼管理對象，用來儲存需要處理的使用者密碼
passmgr = urllib2.HTTPPasswordMgrWithDefaultRealm()

#2. 添加賬戶資訊，第一個參數是realm與遠端伺服器相關的域消息，一般沒人管都是寫None,後面三個參數分别是伺服器，使用者名，密碼
passmgr.add_password(None, webserver, user, passwd)

#3.建構一個Http基礎使用者名/密碼驗證的HTTPBasicAuthHandler處理器對象，參數是建立的密碼管理對象
httpauth_handler = urllib2.HTTPBasicAuthHandler(passmgr)

#4.通過build_opener()方法使用這些代理handler對象，建立自定義的opener對象，參數是建立的httpauth_handler
opener = urllib2.build_opener(httpauth_handler)

#5.可以選擇通過install_opener()方法定義全局opener
urllib2.install_opener(opener)

#6.建構request對象
request = urllib2.Request("http://www.baidu.com/")

#7.定義opener為全局opener後，可直接使用urlopen()請求
response = urllib2.urlopen(request)

#8.列印回應
print(response.read())

複制

Cookie

Cookie是指某些網站伺服器為了辯護使用者身份和進行Session，而存儲在使用者浏覽器上的文本檔案，Cookie可以保持登陸資訊到使用者下次與伺服器的會話。

Cookie原理

HTTP是無狀态的面向連接配接的協定，為了保持連接配接狀态，引入了Cookie機制，Cookie是http消息頭中的一種屬性，包括：

Cookie名字(Name)
Cookie的值(Value)
Cookie的過期時間(Expires/Max-Age)
Cookie的作用路徑(Path)
Cookie所在域名(Domain),
使用Cookie進行安全連接配接(Secure)。

前兩個參數是Cookie應用的必要條件，另外，還保活Cookie大小(size, 不同浏覽器對Cookie個數及大小限制是有差異的)

複制

Cookie由變量名和值組成，根據Netscape公司的規定，Cookie格式如下：

Set-Cookie:NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE

複制

Cookie應用

Cookies在爬蟲方面最典型的應用是判斷注冊使用者是否已經登入網站，使用者可能會得到提示，是否在下一次進入此網站時保留使用者資訊以便簡化登入手續。

#-*- coding:utf-8 -*-
#16.urllib2_cookie.py

#擷取一個有登陸資訊的Cookie模拟登陸

import urllib2

#1.建構一個已經登陸過的使用者的headers資訊
headers = {
    "Host":"www.renren.com",
    "Connection":"keep-alive",
    "Upgrade-Insecure-Requests":"1",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",

    # 便于終端閱讀，表示不支援壓縮檔案
    # Accept-Encoding: gzip, deflate, sdch,

    # 重點：這個Cookie是儲存了密碼無需重複登入的使用者的Cookie，這個Cookie裡記錄了使用者名，密碼(通常經過RAS加密)
    "Cookie": "anonymid=ixrna3fysufnwv; depovince=GW; _r01_=1; JSESSIONID=abcmaDhEdqIlM7riy5iMv; jebe_key=f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1484060607173; jebecookies=26fb58d1-cbe7-4fc3-a4ad-592233d1b42e|||||; ick_login=1f2b895d-34c7-4a1d-afb7-d84666fad409; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; p=99e54330ba9f910b02e6b08058f780479; ap=327550029; first_login_flag=1; [email protected]; ln_hurl=http://hdn.xnimg.cn/photos/hdn521/20140529/1055/h_main_9A3Z_e0c300019f6a195a.jpg; t=214ca9a28f70ca6aa0801404dda4f6789; societyguester=214ca9a28f70ca6aa0801404dda4f6789; id=327550029; xnsid=745033c5; ver=7.0; loginfrom=syshome"
}


#2.通過headers裡的報頭資訊(主要是Cookie資訊)，建構request對象
request = urllib2.Request("http://www.renren.com", headers = hreaders)

#3.直接通路人人首頁，伺服器會根據headers資訊(主要是Cookie資訊),判斷是否是一個已經登陸的使用者，并傳回相應的頁面

response = urllib2.urlopen(request)

#4.列印響應内容
print(response.read())

複制

但是這樣做太過複雜，我們先需要在浏覽器登入賬戶，并且設定儲存密碼，并且通過抓包才能擷取這個Cookie，那麼有更簡單友善的方法呢？

cookielib庫和 HTTPCookieProcessor處理器

在Python處理Cookie,一般是通過

cookielib

子產品和urllib2子產品的

HTTPCookieProcessor

處理器一起使用

cookielib 子產品：主要作用是提供使用者存儲cookie的對象 HTTPCoolieProcessor 處理器：主要作用是處理這些cookie對象，并建構handler對象。

cookielib庫

該子產品主要的對象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

CookieJar：管理HTTP cookie值、存儲HTTP請求生成的cookie、向傳出的HTTP請求添加cookie的對象。整個cookie都存儲在記憶體中，對CookieJar執行個體進行垃圾回收後cookie也将丢失。
FileCookieJar(filename,delayload=None,policy=None)：從CookieJar派生而來，用來建立FileCookieJar執行個體，檢索cookie資訊并将cookie存儲到檔案中。filename是存儲cookie的檔案名。delayload為True時支援延遲通路檔案，即隻有在需要時才讀取檔案或在檔案中存儲資料。
MozillaCookieJar(filename, delayload=None, policy=None)：從FileCookieJar派生而來，建立與Mozilla浏覽器 cookies.txt相容的FileCookieJar執行個體。
LWPCookieJar(filename, delay=None, policy=None)：從FileCookieJar派生而來，建立與libwww-perl标準的Set-Cookie3檔案格式相容的FileCookieJar執行個體。

其實大多數情況下，我們隻用CookieJar(),如果需要和本地檔案互動，就用MozillaCookieJar()或LWPCookieJar()

我們來做幾個案例：

擷取Cookie,并儲存到CookieJar()對象中

#-*- coding:utf-8 -*-
#18.urllib2_cookielibtest1.py

import cookielib
import urllib2

#建構一個CookieJar對象實力來儲存cookie
cookiejar = cookielib.CookieJar()

#使用HTTPCookieProcessor()來建立cookie處理器對象，參數為CookieJar()對象
handler = urllib2.HTTPCookieProcessor(cookiejar)

#通過build_opener()來建構opener
opener = urllib2.build_opener(handler)

#以get方式通路頁面，通路之後會自動儲存cookie到cookiejar中
opener.open("http://www.baidu.com")

###可以按照标準格式将儲存的cookie列印出來
cookieStr = ""

for item in cookiejar:
    cookieStr = cookieStr + item.name + "=" +item.value+";" 

##舍去最後一位的分号
print(cookieStr[:-1])

複制

我們使用以上方法将Cookie儲存到cookiejar對象中，然後列印出了cookie中的值，也就是通路百度首頁的Cookie值。

運作結果如下：

BAIDUID=985AC680AE8947E7281186821669B597:FG=1;BIDUPSID=985AC680AE8947E7281186821669B597;H_PS_PSSID=1462_22533_21082_17001_25083_22157;PSTM=1511226559;BDSVRTM=0;BD_HOME=0

複制

通路網站獲得cookie，并把獲得的cookie儲存在cookie檔案中

#-*- coding:utf-8 -*-
#19.urllib2_cookielibtest2.py

import cookielib
import urllib2

#儲存cookie的本地磁盤檔案名
filename = "cookie.txt"

#聲明一個MozillaCookieJar(有save實作)對象執行個體來儲存cookie,之後寫入檔案
cookiejar = cookielib.MozillaCookieJar(filename)

#使用HTTPCookieProcessor()建立cookie處理器對象，參數為cookieJar()對象
handler = urllib2.HTTPCookieProcessor(cookiejar)

#通過build_opener()對象來建構opener
opener = build_opener(handler)

#建立一個請求，原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")

#儲存cookie到本地檔案
cookiejar.save()

複制

從檔案中擷取cookies，做出請求的一部分去通路

# urllib2_cookielibtest2.py

import cookielib
import urllib2

# 建立MozillaCookieJar(有load實作)執行個體對象
cookiejar = cookielib.MozillaCookieJar()

# 從檔案中讀取cookie内容到變量
cookie.load('cookie.txt')

# 使用HTTPCookieProcessor()來建立cookie處理器對象，參數為CookieJar()對象
handler = urllib2.HTTPCookieProcessor(cookiejar)

# 通過 build_opener() 來建構opener
opener = urllib2.build_opener(handler)

response = opener.open("http://www.baidu.com")

複制

利用cookielib和post登陸人人網

import urllib
import urllib2
import cookielib

# 1. 建構一個CookieJar對象執行個體來儲存cookie
cookie = cookielib.CookieJar()

# 2. 使用HTTPCookieProcessor()來建立cookie處理器對象，參數為CookieJar()對象
cookie_handler = urllib2.HTTPCookieProcessor(cookie)

# 3. 通過 build_opener() 來建構opener
opener = urllib2.build_opener(cookie_handler)

# 4. addheaders 接受一個清單，裡面每個元素都是一個headers資訊的元祖, opener将附帶headers資訊
opener.addheaders = [("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36")]

# 5. 需要登入的賬戶和密碼
data = {"email":"[email protected]", "password":"alaxxxxxime"}  

# 6. 通過urlencode()轉碼
postdata = urllib.urlencode(data)

# 7. 建構Request請求對象，包含需要發送的使用者名和密碼
request = urllib2.Request("http://www.renren.com/PLogin.do", data = postdata)

# 8. 通過opener發送這個請求，并擷取登入後的Cookie值，
opener.open(request)                                              

# 9. opener包含使用者登入後的Cookie值，可以直接通路那些登入後才可以通路的頁面
response = opener.open("http://www.renren.com/410043129/profile")  

# 10. 列印響應内容
print response.read()

複制

模拟登陸要注意幾點：

登陸一般都會先有一個HTTP GET，用于拉取一些資訊及獲得Cookie,然後再HTTP POST登陸
HTTP POST登陸的連結有可能是動态的，從GET傳回的資訊中擷取。
password有些是明文發送給，有些是加密後發送。有些網站甚至采用動态加密的，同時包括了很多其他資料的加密資訊，隻能通過檢視JS源碼獲得加密算法，再去破解加密，非常困難。
大多數網站的登陸整體流程是類似的，可能有些細節一些，是以不能保證其他網站登陸成功。

這個測試案例中，為了讓大家快速了解知識點，我們使用的人人網登陸接口是人人網改版前的隐藏接口(噓...),登陸比較友善。

當然，我們也可以直接發送賬号密碼到登陸界面模拟登陸，但是當網頁采用JavaScript動态技術以後，想封鎖基于HttpClient的模拟登陸就太容易了，甚至可以根據你的滑鼠活動的的特征準确地判斷出是不是真人在操作。

是以，想做通用的模拟登陸還是選别的技術，比如用内置浏覽器引擎的爬蟲(關鍵詞：Selenium, PyantomJS),這個我們将在以後會學習到。