天天看点

第一个网络爬虫程序

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

<code>import</code> <code>re</code>

<code>import</code> <code>requests    </code><code>#启动两个模块,pycharm5.0.1里貌似不用特别启动os模块,也可以open#</code>

<code>html</code><code>=</code><code>requests.get(</code><code>"http://tu.xiaopi.com/tuku/3823.html"</code><code>)</code>

<code>AAA</code><code>=</code><code>html.text     </code><code>#从目标网站上捕获源代码#</code>

<code>body</code><code>=</code><code>re.findall(</code><code>'&lt;img src="(.*?)" alt='</code><code>,AAA,re.S)</code>

<code>#此时你肯定要先看一眼源代码,找到你需要找的东西,然后开始“夹逼定理”,还是那句话“夹”最重要,夹的准,基本你的爬虫就差不多了。#</code>

<code>i</code><code>=</code><code>0</code>

<code>for</code> <code>each </code><code>in</code> <code>body:</code>

<code>  </code><code>print</code><code>(</code><code>"正在打印"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>"照片"</code><code>)    </code><code>#这只是告诉你正在正常保存图片,起到进程计数作用#</code>

<code>  </code><code>pic</code><code>=</code><code>requests.get(each)      </code>

<code>#用requests.get是正式捕获每一个图片的url网址#</code>

<code>  </code><code>fp</code><code>=</code><code>open</code><code>(</code><code>"e:/pythonaaa/b/study &amp; test/"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>".jpg"</code><code>,</code><code>"wb"</code><code>)</code>

<code>#将捕获下来的图片保存住,注意文件的/,这是一个很重要的细节!#</code>

<code>  </code><code>fp.write(pic.content)</code>

<code>  </code><code>i</code><code>=</code><code>i</code><code>+</code><code>1</code>

<code>  </code><code>fp.close()</code>

======================================分割线=========================================

本人尚且没有做太多的爬虫实验,而且目前的水平也仅仅是抓点图片和漫画看看,还没到数据库那么高大上的级别,但是本人目前有一个心得:就是很多同学偷懒,在“夹逼”的时候,喜欢用&lt;body&gt;和&lt;/body&gt;“大锤敲缝”,可是往往敲出来的都不对。这是因为不少网页的body有好几个。而且排列方式是&lt;body1号&gt;&lt;body2号&gt;&lt;/body这就不知道几号了&gt;&lt;/body依旧不知道记号&gt;,所以往往会混乱,“夹逼”的时候还是抓明显的要素。

 本文转自 苏幕遮618 51CTO博客,原文链接:http://blog.51cto.com/chenx1242/1729817