天天看點

第一個網絡爬蟲程式

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

<code>import</code> <code>re</code>

<code>import</code> <code>requests    </code><code>#啟動兩個子產品,pycharm5.0.1裡貌似不用特别啟動os子產品,也可以open#</code>

<code>html</code><code>=</code><code>requests.get(</code><code>"http://tu.xiaopi.com/tuku/3823.html"</code><code>)</code>

<code>AAA</code><code>=</code><code>html.text     </code><code>#從目标網站上捕獲源代碼#</code>

<code>body</code><code>=</code><code>re.findall(</code><code>'&lt;img src="(.*?)" alt='</code><code>,AAA,re.S)</code>

<code>#此時你肯定要先看一眼源代碼,找到你需要找的東西,然後開始“夾逼定理”,還是那句話“夾”最重要,夾的準,基本你的爬蟲就差不多了。#</code>

<code>i</code><code>=</code><code>0</code>

<code>for</code> <code>each </code><code>in</code> <code>body:</code>

<code>  </code><code>print</code><code>(</code><code>"正在列印"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>"照片"</code><code>)    </code><code>#這隻是告訴你正在正常儲存圖檔,起到程序計數作用#</code>

<code>  </code><code>pic</code><code>=</code><code>requests.get(each)      </code>

<code>#用requests.get是正式捕獲每一個圖檔的url網址#</code>

<code>  </code><code>fp</code><code>=</code><code>open</code><code>(</code><code>"e:/pythonaaa/b/study &amp; test/"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>".jpg"</code><code>,</code><code>"wb"</code><code>)</code>

<code>#将捕獲下來的圖檔儲存住,注意檔案的/,這是一個很重要的細節!#</code>

<code>  </code><code>fp.write(pic.content)</code>

<code>  </code><code>i</code><code>=</code><code>i</code><code>+</code><code>1</code>

<code>  </code><code>fp.close()</code>

======================================分割線=========================================

本人尚且沒有做太多的爬蟲實驗,而且目前的水準也僅僅是抓點圖檔和漫畫看看,還沒到資料庫那麼高大上的級别,但是本人目前有一個心得:就是很多同學偷懶,在“夾逼”的時候,喜歡用&lt;body&gt;和&lt;/body&gt;“大錘敲縫”,可是往往敲出來的都不對。這是因為不少網頁的body有好幾個。而且排列方式是&lt;body1号&gt;&lt;body2号&gt;&lt;/body這就不知道幾号了&gt;&lt;/body依舊不知道記号&gt;,是以往往會混亂,“夾逼”的時候還是抓明顯的要素。

 本文轉自 蘇幕遮618 51CTO部落格,原文連結:http://blog.51cto.com/chenx1242/1729817