天天看點

作為一隻 Python 爬蟲:如何破解滑動驗證碼

這是「進擊的Coder」的第 371 篇技術分享

作者:劉志軍

來源:Python之禅

閱讀本文大概需要 4 分鐘。

做爬蟲總會遇到各種各樣的反爬限制,反爬的第一道防線往往在登入就出現了,為了限制爬蟲自動登入,各家使出了渾身解數,所謂道高一尺魔高一丈。

今天分享個如何簡單處理滑動圖檔的驗證碼的案例。

作為一隻 Python 爬蟲:如何破解滑動驗證碼

類似這種拖動滑塊移動到圖檔中缺口位置與之重合的登入驗證在很多網站或者 APP 都比較常見,因為它對真實使用者體驗友好,容易識别。同時也能攔截掉大部分初級爬蟲。

作為一隻 python 爬蟲,如何正确地自動完成這個驗證過程呢?

先來分析下,核心問題其實是要怎麼樣找到目标缺口的位置,一旦知道了位置,我們就可以借用 selenium 等工具完成拖動的操作。

我們可以借用 opencv 來解決這個問題,主要步驟:

作為一隻 Python 爬蟲:如何破解滑動驗證碼

opencv 是什麼?

OpenCV(Open Source Computer Vision Library)是開放源代碼計算機視覺庫,主要算法涉及圖像處理、計算機視覺和機器學習相關方法,可用于開發實時的圖像處理、計算機視覺以及模式識别程式。

直接安裝

pip install opencv-python
           

首先将圖檔進行高斯模糊處理,高斯模糊的主要作用是減少圖像的噪聲,用于預處理階段。

import cv2 as cv
image = cv.imread(image_path)
blurred = cv.GaussianBlur(image, (5, 5), 0)
cv.imshow("blurred", blurred)
           

處理後的效果

作為一隻 Python 爬蟲:如何破解滑動驗證碼

接着用 Canny 邊緣檢測到得到一個包含“窄邊界”的二值圖像。所謂二值圖像就是黑白圖,隻有黑色和白色。

canny = cv.Canny(blurred, 200, 400)
cv.imshow("canny", canny)
           
作為一隻 Python 爬蟲:如何破解滑動驗證碼

輪廓檢測

contours, hierarchy = cv.findContours(canny, cv.RETR_CCOMP, cv.CHAIN_APPROX_SIMPLE)
for i, contour in enumerate(contours):  # 所有輪廓
    x, y, w, h = cv.boundingRect(contour)  # 外接矩形
    cv.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)
cv.imshow('image', image)
           

找出所有的輪廓,并用紅色線框将其繪制辨別出來了,看出來大大小小有幾十個輪廓

作為一隻 Python 爬蟲:如何破解滑動驗證碼

剩下的問題就好辦了,我們隻需要對輪廓的面積或者周長範圍做限制,就能過濾出目标輪廓的位置, 前提是我們對目标位置的輪廓大小是預先确定的。

for i, contour in enumerate(contours):  # 所有輪廓
    if 6000 < cv.contourArea(contour) <= 8000 and 300 < cv.arcLength(contour, True) < 500:
        x, y, w, h = cv.boundingRect(contour)  # 外接矩形
        print(x, y, w, h)
        cv.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)
        cv.imshow('image', image)
        # 找目标缺口,第一個可能是滑塊
        if x <= 200:
            continue
        return x + int(w / 2), 675
           

輪廓的面積大概是 6000 到 8000 之間,周長在 300 到 500 之間, 最後用外接矩形擷取該輪廓圖的坐标位置和寬高大小。

作為一隻 Python 爬蟲:如何破解滑動驗證碼

如上就找到了目标位置,剩下的工作就是将滑塊移動到指定位置即可。

作為一隻 Python 爬蟲:如何破解滑動驗證碼

End

「進擊的Coder」專屬學習群已正式成立,搜尋「CQCcqc4」添加崔慶才的個人微信或者掃描下方二維碼拉您入群交流學習。

作為一隻 Python 爬蟲:如何破解滑動驗證碼

看完記得關注@進擊的Coder

及時收看更多好文

↓↓↓

點個在看你最好看

繼續閱讀