關鍵字 爬蟲正文?|?内容 01 — 【介紹】 一個爬蟲代碼。主要用于對公衆号進行擷取資料使用的。使用的python進行開發的。内容比較簡單。可以簡單試用下。 02 — 【技術架構】 1、python環境, 檢查python的版本 是
關鍵字:爬蟲
正文?|?内容
01
—
【介紹】
一個爬蟲代碼。主要用于對公衆号進行擷取資料使用的。使用的python進行開發的。内容比較簡單。可以簡單試用下。
02
—
【技術架構】
1、python環境, 檢查python的版本,是否為2.7.x,如果不是,安裝2.7.6。
2、安裝依賴包, clone代碼 安裝Mysql-python依賴
yum install python-devel mysql-devel gcc
安裝lxml依賴
yum install libxslt-devel libxml2-devel
安裝浏覽器環境 selenium依賴.(如果是mac環境,僅需安裝firefox, 但確定版本是 firefox 36.0,使用最新的版本會報錯)
yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 確定glib2版本大于2.42.2,否則firefox啟動會報錯
yum install firefox # centos下安裝最新的firefox版本
clone代碼,安裝依賴python庫
$ git clone https://github.com/bowenpay/wechat-spider.git
$ cd wechat-spider
$ pip install -r requirements.txt
3、建立mysql資料庫
建立資料庫wechatspider,預設采用utf8編碼。(如果系統支援,可以采用utf8mb4,以相容emoji字元)
mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;
4、安裝和運作Redis
$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server
5、更新配置檔案local_settings
在 wechatspider 目錄下,添加?local_settings.py?檔案,配置如下:
6、初始化表
$ python manage.py migrate
7、啟動網站
python manage.py runserver 0.0.0.0:8001
通路 http://localhost:8001/。
建立超級管理者賬号,通路背景,并配置要爬取的公衆号和關鍵字
python manage.py createsuperuser
8)啟動爬蟲
$ python bin/scheduler.py
$ python bin/downloader.py
$ python bin/extractor.py
$ python bin/processor.py
03
—
【源碼擷取方式】
https://github.com/bowenpay/wechat-spider.git
聯
系
方
式
公衆号ID:??itcode
微信ID:??itcoder
免
責
聲
明
【寫作說明】以上文章屬于此公衆号原創所有,如需轉載請注明出處。【免責申明】本公衆号不是廣告商,也沒有為其他三方網站或者個人做廣告宣傳。文章釋出源代碼和文章均來源于各類開源網站社群或者是小編在項目中、學習中整理的一些執行個體項目。主要目的是将開源代碼分享給喜歡程式設計、有夢想的程式員,希望能幫助到你們與他們共同成長。其中使用者産生的一些自願下載下傳或者付費行為,原則與平台沒有直接關系。如果涉及開源程式侵犯到原作者相關權益,可聯系小編進行相關處理。
【投稿郵箱】[email protected]
—————————————
目前已有1000000+優秀的程式員加入我們
?????
?????
?????
?????
?????
?
?????
?????
?????
?????
?????
———————
————————
【你的每一份打賞就是對我最真誠的鼓勵】
以上資訊來源于網絡,如有侵權,請聯系站長删除。