4.python爬虫浏览器伪装技术

2018-02-07 23:50:00

#python爬虫的浏览器伪装技术
#爬取csdn博客，会返回403错误，因为对方服务器会对爬虫进行屏蔽，此时需要伪装成浏览器才能爬取
#浏览器伪装，一般通过报头进行。

import urllib.request
url="http://blog.csdn.net/bingoxubin/article/details/78503370"
headers=("User-Agent","浏览器中User-Agent的值")
opener=urllib.request.build_opener()
opener.add_handlers=[headers]
data=opener.open(url).read()
print(len(data))

数据采集 Python python数据可视化写入数据python python数据写入 python数据问题 python数据

上一篇: 1.python爬虫基础——正则表达式

下一篇: 1.python基础阶段

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环
Python
08-07
无法解析的外部符号 wmain，该符号在函数 "void __cdecl mainCRTStartupHelper(struct HINSTANCE__ *,unsigned short con......
Python
08-07
TestLink导出用例转换工具(XML2Excel)
实用小工具 Python Testlink XML转Excel
08-07
YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作
DEV Python
08-07
Small tricks
Python import encoding byte module class
08-07
libsvm for python 安装
Python 机器学习ML libsvm
08-07
学习软件测试基础测试第七天
测试工具单元测试 Python
08-07
Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API
Python
08-07
【Torch】最简洁logging使用指南
Python Pytorch logging
08-07
27. Remove Element(列表)题目代码
leetcode Python
08-07
Cloud Studio初体验
Python ruby php
08-07
使用 ctypes 进行 Python 和 C 的混合编程
Python
08-07
【python】【数据处理】画多维数据分布图
jupyter Python ML 数据处理多维数据压缩数据分布
08-07
【python】netconf协议对接管理设备
Python netconf
08-07
「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备
NetDevOps netconf network Python
08-07
在python中创建excel并写入
Python
08-07