12、web爬蟲講解2—Scrapy架構爬蟲—Scrapy模拟浏覽器登入—擷取Scrapy架構Cookies

模拟浏覽器登入

start_requests()方法，可以傳回一個請求給爬蟲的起始網站，這個傳回的請求相當于start_urls，start_requests()傳回的請求會替代start_urls裡的請求

Request()get請求，可以設定，url、cookie、回調函數

FormRequest.from_response()表單post送出，第一個必須參數，上一次響應cookie的response對象，其他參數，cookie、url、表單内容等

yield Request()可以将一個新的請求傳回給爬蟲執行

在發送請求時cookie的操作，

meta={'cookiejar':1}表示開啟cookie記錄，首次請求時寫在Request()裡

meta={'cookiejar':response.meta['cookiejar']}表示使用上一次response的cookie，寫在FormRequest.from_response()裡post授權

meta={'cookiejar':True}表示使用授權後的cookie通路需要登入檢視的頁面

擷取Scrapy架構Cookies

請求Cookie

Cookie = response.request.headers.getlist('Cookie')

print(Cookie)

響應Cookie

Cookie2 = response.headers.getlist('Set-Cookie')

print(Cookie2)

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest

class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = 'pach'                                           #設定爬蟲名稱
    allowed_domains = ['edu.iqianyue.com']                  #爬取域名
    # start_urls = ['http://edu.iqianyue.com/index_user_login.html']     #爬取網址,隻适于不需要登入的請求，因為沒法設定cookie等資訊

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #設定浏覽器使用者代理

    def start_requests(self):       #用start_requests()方法,代替start_urls
        """第一次請求一下登入頁面，設定開啟cookie使其得到cookie，設定回調函數"""
        return [Request('http://edu.iqianyue.com/index_user_login.html',meta={'cookiejar':1},callback=self.parse)]

    def parse(self, response):     #parse回調函數

        data = {                    #設定使用者登入資訊，對應抓包得到字段
            'number':'adc8868',
            'passwd':'279819',
            'submit':''
            }

        # 響應Cookie
        Cookie1 = response.headers.getlist('Set-Cookie')   #檢視一下響應Cookie，也就是第一次通路注冊頁面時背景寫入浏覽器的Cookie
        print(Cookie1)

        print('登入中')
        """第二次用表單post請求，攜帶Cookie、浏覽器代理、使用者登入資訊，進行登入給Cookie授權"""
        return [FormRequest.from_response(response,
                                          url='http://edu.iqianyue.com/index_user_login',   #真實post位址
                                          meta={'cookiejar':response.meta['cookiejar']},
                                          headers=self.header,
                                          formdata=data,
                                          callback=self.next,
                                          )]
    def next(self,response):
        a = response.body.decode("utf-8")   #登入後可以檢視一下登入響應資訊
        # print(a)
        """登入後請求需要登入才能檢視的頁面，如個人中心，攜帶授權後的Cookie請求"""
        yield Request('http://edu.iqianyue.com/index_user_index.html',meta={'cookiejar':True},callback=self.next2)
    def next2(self,response):
        # 請求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print(Cookie2)

        body = response.body  # 擷取網頁内容位元組類型
        unicode_body = response.body_as_unicode()  # 擷取網站内容字元串類型

        a = response.xpath('/html/head/title/text()').extract()  #得到個人中心頁面
        print(a)

模拟浏覽器登入2

第一步、

爬蟲的第一次通路，一般使用者登入時，第一次通路登入頁面時，背景會自動寫入一個Cookies到浏覽器，是以我們的第一次主要是擷取到響應Cookies

首先通路網站的登入頁面，如果登入頁面是一個獨立的頁面，我們的爬蟲第一次應該從登入頁面開始，如果登入頁面不是獨立的頁面如 js 彈窗，那麼我們的爬蟲可以從首頁開始

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re

class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = 'pach'                                           #設定爬蟲名稱
    allowed_domains = ['dig.chouti.com']                    #爬取域名
    # start_urls = ['']                                     #爬取網址,隻适于不需要登入的請求，因為沒法設定cookie等資訊

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #設定浏覽器使用者代理

    def start_requests(self):
        """第一次請求一下登入頁面，設定開啟cookie使其得到cookie，設定回調函數"""
        return [Request('http://dig.chouti.com/',meta={'cookiejar':1},callback=self.parse)]

    def parse(self, response):
        # 響應Cookies
        Cookie1 = response.headers.getlist('Set-Cookie')                            #檢視一下響應Cookie，也就是第一次通路注冊頁面時背景寫入浏覽器的Cookie
        print('背景首次寫入的響應Cookies：',Cookie1)

        data = {                                                                    # 設定使用者登入資訊，對應抓包得到字段
            'phone': '8615284816568',
            'password': '279819',
            'oneMonth': '1'
        }

        print('登入中....!')
        """第二次用表單post請求，攜帶Cookie、浏覽器代理、使用者登入資訊，進行登入給Cookie授權"""
        return [FormRequest.from_response(response,
                                          url='http://dig.chouti.com/login',                        #真實post位址
                                          meta={'cookiejar':response.meta['cookiejar']},
                                          headers=self.header,
                                          formdata=data,
                                          callback=self.next,
                                          )]

    def next(self,response):
        # 請求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print('登入時攜帶請求的Cookies：',Cookie2)

        jieg = response.body.decode("utf-8")   #登入後可以檢視一下登入響應資訊
        print('登入響應結果：',jieg)

        print('正在請需要登入才可以通路的頁面....!')

        """登入後請求需要登入才能檢視的頁面，如個人中心，攜帶授權後的Cookie請求"""
        yield Request('http://dig.chouti.com/user/link/saved/1',meta={'cookiejar':True},callback=self.next2)

    def next2(self,response):
        # 請求Cookie
        Cookie3 = response.request.headers.getlist('Cookie')
        print('檢視需要登入才可以通路的頁面攜帶Cookies：',Cookie3)

        leir = response.xpath('//div[@class="tu"]/a/text()').extract()  #得到個人中心頁面
        print('最終内容',leir)
        leir2 = response.xpath('//div[@class="set-tags"]/a/text()').extract()  # 得到個人中心頁面
        print(leir2)

12、web爬蟲講解2—Scrapy架構爬蟲—Scrapy模拟浏覽器登入—擷取Scrapy架構Cookies

【轉載自：

http://www.lqkweb.com

】

12、web爬蟲講解2—Scrapy架構爬蟲—Scrapy模拟浏覽器登入—擷取Scrapy架構Cookies

繼續閱讀

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

tab滑鼠經過菜單切換

vue （vue2.0）使用總結(從大體結構總結)

vue搭建過程及出現問題

/\B(?=(?:\d{3})+$)/g 一條令人費解的正規表達式

适用于JavaScript的ECMAScript 2020規範向前發展

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

JS生成uuid的四種方法

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

layui多任務上傳添加進度條

在python中建立excel并寫入