學了大概一個月爬蟲了,看着人家爬東爬西的,自己也按捺不住終于寫好了自己的爬蟲,而且是福利哦。
這裡我們主要用到了requests庫,推薦大家用python 3.0+以上版本。
import urllib
import re
import requests
from requests.exceptions import RequestException
#這裡是我們要爬的網址,為了示例隻爬取20頁
for j in range(, ):
url = 'http://www.qiubaichengren.com/' + str(j) + '.html'
#得到網頁源代碼
def get_page_index(url):
try:
response=requests.get(url)
if response.status_code==:
return response.content.decode('gbk')
else:
return None
except RequestException:
print('its error')
return None
def download_img(html):
#這裡使用正則比對出我們要拿到圖檔的網址
pattern = re.compile('<img alt=.*? src="(.*?)".*? />', re.S)
items = re.findall(pattern, html)
x=
for item in items:
print('正在下載下傳中....')
bytes = requests.get(item)
f = open("f:/qiushibaike/" + str(x) + '.jpg', 'wb')
f.write(bytes.content)
x = x +
def main():
html=get_page_index(url)
download_img(html)
if __name__=='__main__':
main()