天天看點

Flask+Redis維護代理池

為什麼要用代理池?

許多網站有專門的反爬蟲措施,可能遇到封IP等問題。遇到這種問題時,就需要用各種代理來僞裝IP請求網站,防止封IP問題導緻爬蟲不能成功。網際網路上公開了大量免費代理,利用好資源。維護代理池把一些不好用的剔除,好用的供爬蟲使用。通過定時的檢測維護同樣可以得到多個可用代理。

代理池的要求

  • 多站抓取,異步檢測
  • 定時篩選,持續更新
  • 提供接口,易于擷取

代理池架構

抓取器(Internet) --> 過 濾器 --> 代理隊列 --> [API, 定時檢測器]

代理池實作

https://github.com/linqingmaoer/ProxyPool