天天看點

老司機帶你30行代碼爬糗事百科成人版

學了大概一個月爬蟲了,看着人家爬東爬西的,自己也按捺不住終于寫好了自己的爬蟲,而且是福利哦。

這裡我們主要用到了requests庫,推薦大家用python 3.0+以上版本。

import urllib
import re
import requests
from requests.exceptions import RequestException
#這裡是我們要爬的網址,為了示例隻爬取20頁
for j in range(, ):
    url = 'http://www.qiubaichengren.com/' + str(j) + '.html'
    #得到網頁源代碼
    def get_page_index(url):

        try:
            response=requests.get(url)
            if response.status_code==:
                return response.content.decode('gbk')
            else:
                return None
        except RequestException:
            print('its error')
            return None
    def download_img(html):
    #這裡使用正則比對出我們要拿到圖檔的網址
        pattern = re.compile('<img alt=.*? src="(.*?)".*? />', re.S)
        items = re.findall(pattern, html)
        x=
        for item in items:
            print('正在下載下傳中....')
            bytes = requests.get(item)
            f = open("f:/qiushibaike/" + str(x) + '.jpg', 'wb')
            f.write(bytes.content)
            x = x + 
    def main():
        html=get_page_index(url)
        download_img(html)

    if __name__=='__main__':
        main()