第一个网络爬虫程序

2017-11-11 23:50:00

<code>import</code> <code>re</code>

<code>import</code> <code>requests </code><code>#启动两个模块，pycharm5.0.1里貌似不用特别启动os模块，也可以open#</code>

<code>html</code><code>=</code><code>requests.get(</code><code>"http://tu.xiaopi.com/tuku/3823.html"</code><code>)</code>

<code>AAA</code><code>=</code><code>html.text </code><code>#从目标网站上捕获源代码#</code>

<code>body</code><code>=</code><code>re.findall(</code><code>'<img src="(.*?)" alt='</code><code>,AAA,re.S)</code>

<code>#此时你肯定要先看一眼源代码，找到你需要找的东西，然后开始“夹逼定理”，还是那句话“夹”最重要，夹的准，基本你的爬虫就差不多了。#</code>

<code> </code><code>print</code><code>(</code><code>"正在打印"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>"照片"</code><code>) </code><code>#这只是告诉你正在正常保存图片，起到进程计数作用#</code>

<code> </code><code>pic</code><code>=</code><code>requests.get(each) </code>

<code>#用requests.get是正式捕获每一个图片的url网址#</code>

<code> </code><code>fp</code><code>=</code><code>open</code><code>(</code><code>"e:/pythonaaa/b/study & test/"</code><code>+</code><code>str</code><code>(i)</code><code>+</code><code>".jpg"</code><code>,</code><code>"wb"</code><code>)</code>

<code>#将捕获下来的图片保存住，注意文件的/，这是一个很重要的细节！#</code>

<code> </code><code>fp.write(pic.content)</code>

<code> </code><code>fp.close()</code>

======================================分割线=========================================

本人尚且没有做太多的爬虫实验，而且目前的水平也仅仅是抓点图片和漫画看看，还没到数据库那么高大上的级别，但是本人目前有一个心得：就是很多同学偷懒，在“夹逼”的时候，喜欢用<body>和</body>“大锤敲缝”，可是往往敲出来的都不对。这是因为不少网页的body有好几个。而且排列方式是<body1号><body2号></body这就不知道几号了></body依旧不知道记号>，所以往往会混乱，“夹逼”的时候还是抓明显的要素。

本文转自苏幕遮618 51CTO博客，原文链接:http://blog.51cto.com/chenx1242/1729817

第一个网络爬虫程序

继续阅读

set define off关闭替代变量功能

报错：'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件。

Linxu常用命令技巧汇总

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艰难安装LDAP,SSL认证

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

MySQL的4种隔离级别？出现问题

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

详解STM32单片机的堆栈

NOSQL安全攻击

mybatis_入门程序Mybatis入门

登录plsql 报错 the account is locked --用户被锁

SequoiaDB巨杉数据库C++驱动概述