天天看點

python爬蟲scrapy連接配接mongodb_爬蟲架構scrapy和資料庫MongoDB的結合使用(二)實戰

目标抓取盜墓筆記小說網站上《盜墓筆記》這本書的書名、章節名、章節url,并存放到MongoDB中

1.Scrapy中settings.py的設定(先scrapy startproject novelspider)

在settings.py中配置MongoDB的IP位址、端口号、資料記錄名稱,并通過settings.py使pipelines.py生效:

python爬蟲scrapy連接配接mongodb_爬蟲架構scrapy和資料庫MongoDB的結合使用(二)實戰

2.Scrapy中item.py設定

python爬蟲scrapy連接配接mongodb_爬蟲架構scrapy和資料庫MongoDB的結合使用(二)實戰

3.Scarpy中pipelines.py的設定

在pipelines中可以像普通的python檔案操作MongoDB一樣編寫代碼出來需要保持到MongoDB中的資料,然而不同的是這裡的資料來自items,這樣做的好處是将資料抓取和處理分開。

python爬蟲scrapy連接配接mongodb_爬蟲架構scrapy和資料庫MongoDB的結合使用(二)實戰

在通過settings導入MONGODB字典時竟然報錯了~~~~(瑪德),所示格式錯誤,不明是以,故mongodb的設定直接寫到pipelines中。把spider抓取到的資料存放到item執行個體中,再通過dict字典化insert到mongodb中。

4.spider檔案下建立novspider.py

python爬蟲scrapy連接配接mongodb_爬蟲架構scrapy和資料庫MongoDB的結合使用(二)實戰

5.運作爬蟲

有兩種方法運作,一種是直接在cmd下輸入 scrapy crawl xxxspider,當然你得先cd到xxxspider檔案夾下;

另一種是在xxxspider檔案夾下(和scrapy.cfg同一個目錄下)建立一個mian.py腳本,其内容為:

python爬蟲scrapy連接配接mongodb_爬蟲架構scrapy和資料庫MongoDB的結合使用(二)實戰

6.運作結果

重新整理mongodb,我存放到mydb3中:

python爬蟲scrapy連接配接mongodb_爬蟲架構scrapy和資料庫MongoDB的結合使用(二)實戰

8.源碼

我分享到了百度雲盤:連結:http://pan.baidu.com/s/1dFjxViD 密碼:a8m7

可能會失效,有需要的M我~~~~ 謝謝大家支援,荊轲刺秦王!