天天看點

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

小編是一個爬蟲初學者,學習python爬蟲已有一段時間了,對Scrapy架構開發有自己的一點小見解,如果有說不對的地方,希望大家多多指點。小編用的是Python2.7,如果覺得版本太舊,也可以用3.x版本,可能文法上有點不同。為了友善,小編在windows系統下開發案例。小編這次做了關于對拉勾網招聘資訊采集的簡單爬蟲,并将采集的資訊存放到MongoDB資料庫中。

在開始代碼之前,還沒有安裝過MongoDB的朋友,可以先去官網下載下傳并安裝。MongoDB下載下傳官網:https://www.mongodb.com/download-center;安裝和使用教程:

http://www.runoob.com/mongodb/mongodb-window-install.html.安裝和配置完成後,因為權限不足的問題,需要在管理者模式下啟動MongoDB,MongoDB的開啟方法已在使用教程中展示,如下圖所示.

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

然後打開任意浏覽器,輸入位址:http://localhost:27017,如果一切正常,如下圖所示,表示MongoDB資料正常使用.

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

啟動MongoDB後,建立爬蟲工程,以lagou為例,具體代碼如下:

編寫lagourecruit.py檔案

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲
python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

編寫items.py檔案

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

編寫setting.py檔案,同時設定好自己的User-Agent

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

編寫pipelines.py檔案

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

編寫start.py檔案

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

執行start.py腳本(ps:在這裡小編隻展示一部分)

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

在MongoDB啟動的狀态下,資料已成功寫入到資料庫中,小編向大家展示兩種資料庫的查閱方式。

方式一:另外打開一個以管理者身份運作的cmd視窗,進入到MongoDB安裝盤的mongodb\bin檔案目錄下,輸入mongo指令,小編這裡以F盤為例,如下圖所示.

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

完成之後,輸入use+工程名(如use lagou),接着輸入檢視資料庫指令:show collections,再輸入db.資料庫名稱.find()(如db.lagourecruit.find())檢視資料庫内容,如下圖所示.

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

方式二:利用MongoDB可視化工具RoboMongo,RoboMongo下載下傳位址:

http://www.softpedia.com/get/Internet/Servers/Database-Utils/Robomongo.shtml#download,安裝完成并打開,建立主機連接配接,如下圖所示.

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

連接配接成功後,即可查閱資料庫内容,如下圖所示.

python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲
python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲
python爬蟲scrapy連接配接mongodb_Scrapy爬蟲之MongoDB資料存儲

END

标簽:

版權申明:本站文章部分自網絡,如有侵權,請聯系:[email protected]

特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有