Python3爬虫实例代理的使用

2019-02-28 17:20:00

　　　　现在爬虫越来越难了，一些网站会有相应的反爬虫措施，例如很多网站会检测某一段时间某个IP的访问次数，如果访问频率太快以至于看起来不像正常访客，它可能就会会禁止这个IP的访问。

　　所以我们需要设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。

　　　　网上有很多网站提供免费代理，但是经过测试基本都不可用，所以就付费买代理IP吧。目前市面有飞蚁代理，代理云，西瓜代理等。下面就介绍一下飞蚁代理使用情况。

　　　　1、首先注册一个用户，注册过程会送50元，可以下单测试。

　　　　2、下单如下：

　　　　这个测试期间有个效期，过期失效，据客服讲，正式的期限都比较长，直到用完为止，

　　3、生成API链接

　　4、测试代码

　　　　获取代理

#获取代理IP
    def getProxyIPs(self,num=1):
        '''
        获取代理IP
        :param num: 获取的代理IP的个数
        :return:
        '''
        proxy_ip=''
        try:
            url = 'http://182.129.244.16:88/open?user_name=53543&timestamp=1551166598&' \
                  'md5=0ADAF27E30AFD0DD52D7B44F3A5C145F&pattern=json&number=%d' % num
            
            response = request.urlopen(url)
            page = response.read()
            txt = str(page.decode('utf-8'))
            dataDict = json.loads(txt)
            print(dataDict)
            ports = dataDict.get('port')
            # domain = dataDict.get('domain')
            for port in ports:
                proxy_ip = {'http': "http://" + self.proxy_server + ':' + str(port),
                           'https': 'https://' + self.proxy_server + ':' + str(port), }
        except Exception as ex:
            print(ex)

        return proxy_ip

　　利用获取代理抓取数据

def testproxy(self,url, proxy_IP):

        try:

            cookie1 = random.choice(self.mycookies)
            UserAgent = random.choice(self.user_agent_list)
            header = {'User-Agent': UserAgent}
            # proxies=proxy_IP ,

            txt = requests.get(url,proxies=proxy_IP ,cookies=cookie1, headers=header).text
            print(txt)
          
        except Exception as ex:
            print(ex)

　　另外为chrome设置代理IP，以Chrome浏览器为例

　　　　　chrome_options = Options()
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('--disable-gpu')
        proxy = '181.121.214.16:14140'
        chrome_options.add_argument('--proxy-server=' + proxy)

        driver = webdriver.Chrome(chrome_options=chrome_options)

driver = webdriver.PhantomJS(service_args = [
            '--proxy=183.129.244.16:11310',
            '--proxy-type=http',
            '--load-images=false'
        ])

Python3爬虫实例代理的使用

继续阅读

Json 的三种解析方式Json简介Json的三种解析方式

JSON三种创建方式

SpringMVC 返回json的两种方式

json传输数据解决中文乱码问题

selenium 自动抢课——电子科大自动抢课脚本前言：使用方法：`代码：

关于 underscore 中模板引擎的应用演示样例

underscore 模板标签修改。

Ajax——模板引擎

使用underscore的template自定义模板

underscore模板功能的使用和学习

linux下的完美网银们（google chrome, ubuntu10.04）

[HTML5]自定义属性 data-* 和 jQuery.data 详解

七牛云-C#SDK-上传-前期准备

vue-cli简介（中文翻译）

Ajax发送和获取json数据到Spring mvc 1.spring mvc后端2.web前段

JSONObject包导入异常 java.lang.NoClassDefFoundErrorweb项目的导入包的问题

Python3爬虫实例 代理的使用

继续阅读

Python3爬虫实例代理的使用