為什麼要用代理池?
許多網站有專門的反爬蟲措施,可能遇到封IP等問題。遇到這種問題時,就需要用各種代理來僞裝IP請求網站,防止封IP問題導緻爬蟲不能成功。網際網路上公開了大量免費代理,利用好資源。維護代理池把一些不好用的剔除,好用的供爬蟲使用。通過定時的檢測維護同樣可以得到多個可用代理。
代理池的要求
- 多站抓取,異步檢測
- 定時篩選,持續更新
- 提供接口,易于擷取
代理池架構
抓取器(Internet) --> 過 濾器 --> 代理隊列 --> [API, 定時檢測器]
代理池實作
https://github.com/linqingmaoer/ProxyPool