天天看點

代理IP爬取,計算,發放自動化系統IoC

<a href="#ioc">IoC</a>

<a href="#python%E7%AB%AF">Python端</a>

<a href="#mysql%E7%AB%AF">MySQL端</a>

<a href="#php%E7%AB%AF">PHP端</a>

<a href="#%E6%80%8E%E4%B9%88%E4%BD%BF%E7%94%A8">怎麼使用</a>

這學期有一門課叫《物聯網與雲計算》,于是我就做了一個大作業,實作的是對代理IP的爬取,計算推薦,發放給使用者等任務的的自動化系統。由于代碼比較多,有興趣的可以到部落客的GitHub上下載下傳。

下面簡單的列些貼圖,聊表心意,有興趣的不妨看看咯。

:heart: 物聯網與雲計算大作業,爬取代理IP并存儲到資料庫,再借助推薦算法,結合PHP實作系統性的代理IP發放系統。

Python作為爬蟲端來爬取代理IP的完善的資料;

再基于推薦算法(我自己瞎鬧的,參考了ItemCF的思想)為使用者計算出比較合适的IP段

定時為user表中的使用者發送包含代理IP詳細資訊的郵件來通知使用者。

資料庫這裡比較簡單,也就幾張實體表以及關系表。用來記錄代理IP以及使用者與配置設定等關系。

PHP被譽為是“網站開發方向的最好的語言”,确實是有一定的道理的,在Web開發方面尤其獨特的優勢,這裡采用PHP實作了使用者登入以及注冊的功能。

配合前端架構Bootstrap搭建了一個響應式的網站雛形,比較精簡。來完成與使用者的互動,以及簡單的業務。

資料端

也就是Python端。app-&gt;storage.py即為項目入口,對于config檔案夾下的資料庫配置檔案,以及IP代理提取網址等做好配置後就可以了。

storage.py會自動的調用spider.py和util.py來完成具體的爬取和存儲任務。很友善,當然也可以自己改動一下,完善它:heart:

PHP端

這個就比較的簡單了,按照PHP的工作原理進行整個檔案夾的拷貝,粘貼即可工作。當然了,這裡還是需要稍微的改動一點點的,做過開發的都知道了。那就是表單

action的那一小部分,比較簡單,就不在過多叙述了。

資料庫

一定要按照要求建立資料庫以及表結構。我把檔案放到了app/temp/ioc.sql路徑下。有需要的不妨參考一下。