第一個網絡爬蟲程式

2017-11-11 23:50:00

<code>import</code> <code>re</code>

<code>import</code> <code>requests </code><code>#啟動兩個子產品，pycharm5.0.1裡貌似不用特别啟動os子產品，也可以open#</code>

<code>html</code><code>=</code><code>requests.get(</code><code>"http://tu.xiaopi.com/tuku/3823.html"</code><code>)</code>

<code>AAA</code><code>=</code><code>html.text </code><code>#從目标網站上捕獲源代碼#</code>

<code>body</code><code>=</code><code>re.findall(</code><code>'<img src="(.*?)" alt='</code><code>,AAA,re.S)</code>

<code>#此時你肯定要先看一眼源代碼，找到你需要找的東西，然後開始“夾逼定理”，還是那句話“夾”最重要，夾的準，基本你的爬蟲就差不多了。#</code>

<code> </code><code>print</code><code>(</code><code>"正在列印"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>"照片"</code><code>) </code><code>#這隻是告訴你正在正常儲存圖檔，起到程序計數作用#</code>

<code> </code><code>pic</code><code>=</code><code>requests.get(each) </code>

<code>#用requests.get是正式捕獲每一個圖檔的url網址#</code>

<code> </code><code>fp</code><code>=</code><code>open</code><code>(</code><code>"e:/pythonaaa/b/study & test/"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>".jpg"</code><code>,</code><code>"wb"</code><code>)</code>

<code>#将捕獲下來的圖檔儲存住，注意檔案的/，這是一個很重要的細節！#</code>

<code> </code><code>fp.write(pic.content)</code>

<code> </code><code>fp.close()</code>

======================================分割線=========================================

本人尚且沒有做太多的爬蟲實驗，而且目前的水準也僅僅是抓點圖檔和漫畫看看，還沒到資料庫那麼高大上的級别，但是本人目前有一個心得：就是很多同學偷懶，在“夾逼”的時候，喜歡用<body>和</body>“大錘敲縫”，可是往往敲出來的都不對。這是因為不少網頁的body有好幾個。而且排列方式是<body1号><body2号></body這就不知道幾号了></body依舊不知道記号>，是以往往會混亂，“夾逼”的時候還是抓明顯的要素。

本文轉自蘇幕遮618 51CTO部落格，原文連結:http://blog.51cto.com/chenx1242/1729817

第一個網絡爬蟲程式

繼續閱讀

set define off關閉替代變量功能

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

詳解STM32單片機的堆棧

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述