怎麼用Python爬取小姐姐的照片呢！！

愛美之心人皆有之，嘻嘻，小編每天都坐在電腦前，除了看小姐姐照片時是最賞心悅目心情愉悅的，直接開始吧！！

Python有許多強大的庫用于爬蟲，如beautifulsoup、requests等，本文将以網站https://www.xiurenji.cc/XiuRen/為例，講解網絡爬取圖檔的一般步驟。

為什麼選擇這個網站？其實與網站的内容無關。主要有兩項技術層面的原因：①該網站的頁面構造較有規律，适合新手對爬蟲的技巧加強認識。②該網站沒有反爬蟲機制，可以放心使用爬蟲。

第三方庫需求

beautifulsoup
requests

怎麼用Python爬取小姐姐的照片呢！！

步驟

打開網站，點選不同的頁面：

發現其首頁是https://www.xiurenji.cc/XiuRen/，而第二頁是https://www.xiurenji.cc/XiuRen/index2.html，第三頁第四頁以此類推。為了爬蟲代碼的普适性，我們不妨從第二頁以後進行構造url。

怎麼用Python爬取小姐姐的照片呢！！

選中封面圖檔，點選檢查：

怎麼用Python爬取小姐姐的照片呢！！

可以發現，圖檔的資訊，都在’div’,class_='dan’裡，而連結又在a标簽下的href裡。據此我們可以寫一段代碼提取出每一個封面圖檔的url：

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發送請求
  res.encoding="gbk"#設定編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖檔的标簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址

下面公衆号裡面有更多免費有關Python的學習資料

怎麼用Python爬取小姐姐的照片呢！！

urls.append(‘https://www.xiurenji.cc’+url1)#在清單的尾部添加一個元素，達到擴充清單的目的，注意要把網址擴充完整

return urls#傳回該首頁每一個封面對應的網址

點選封面圖檔，打開不同的頁面，可以發現，首頁的網址是https://www.xiurenji.cc/XiuRen/xxxx.html，而第二頁的網址是https://www.xiurenji.cc/XiuRen/xxxx_1.html，第三第四頁同理。同樣為了普适性，我們從第二頁開始爬取。

怎麼用Python爬取小姐姐的照片呢！！

右鍵，點選“檢查”：

怎麼用Python爬取小姐姐的照片呢！！

可以發現所有的圖檔資訊都儲存在’div’,class_='img’中，連結、标題分别在img标簽中的src和alt中，我們同樣也可以将它們提取出來。

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發送請求
  res.encoding="gbk"#設定編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖檔的标簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在清單的尾部添加一個元素，達到擴充清單的目的，注意要把網址擴充完整
  return urls#傳回該首頁每一個封面對應的網址

完整代碼如下

import requests
from bs4 import BeautifulSoup
 
def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發送請求
  res.encoding="gbk"#設定編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖檔的标簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在清單的尾部添加一個元素，達到擴充清單的目的，注意要把網址擴充完整
  return urls#傳回該首頁每一個封面對應的網址
 
def download(urls):
 for url1 in urls:
  print("prepare to download pictures in "+url1)
  getEveryPage(url1)#下載下傳頁面内的圖檔
  print("all pictures in "+url1+"are downloaded")
   
def getEveryPage(url1):
 total=0#total的作用：對屬于每一個封面内的圖檔一次編号
 for n in range (1,11):#每一個封面對應下載下傳10張圖，可自行調整
  temp=url1.replace('.html','')
  url2=temp+'_'+str(n)+'.html'#獲得每一内部頁面的網址
  res=requests.get(url2)
  res.encoding="gbk"
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists1=soup.find_all('div',class_='img')#儲存圖檔的路徑
   
  for item in lists1:
   url=item.find('img').get('src')
   title=item.find('img').get('alt')#擷取圖檔及其标題
   picurl='https://www.xiurenji.cc'+url#擷取完整的圖檔标題
   picture=requests.get(picurl).content#下載下傳圖檔
   address='D:\pythonimages'+'\\'#自定義儲存圖檔的路徑
   with open(address+title+str(total)+'.jpg','wb') as file:#儲存圖檔
    print("downloading"+title+str(total))
    total=total+1
    file.write(picture)
     
 
if __name__ == "__main__":
 page=int(input('input the page you want:'))
 urls=getFirstPage(page)
 download(urls)

怎麼用Python爬取小姐姐的照片呢！！

本文僅提供學習參考啊~這篇文章就介紹到這了,想學習更多有關Python的内容就看小編的首頁私聊我，或關注上方公衆号，擷取更多免費資源。

怎麼用Python爬取小姐姐的照片呢！！

步驟

完整代碼如下

繼續閱讀

學習軟體測試基礎測試第七天

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

Linxu常用指令技巧彙總

27. Remove Element(清單)題目代碼

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入