python資料爬取---簡單頁面的爬取

2023-06-11 08:39:59

1、準備Requests和User Agent

python中能實作爬蟲功能的庫有若幹個，而最簡單最容易上手的，要數Requests庫，它是一個常用的http請求庫，首先用pip install requests 進行安裝才能使用。

User Agent一般翻譯為使用者代理，它的作用是向伺服器自報家門。為什麼要這個User Agent呢？因為我們要讓爬蟲假裝是一個正常的使用者在使用浏覽器對目标網站的伺服器送出請求。那怎麼知道自己的User Agent，最簡單的方法就是在百度中搜尋UA查詢。

2、确定一個目标網站并分析其結構

比如，我們現在要以中央政府官網作為目标網站，位址http://www.gov.cn,我們要抓取最新政策資訊。

政策專欄的位址是：http://www.gov.cn/zhengce/index.htm，該頁面顯示近10條最新政策标題；

最新政策專欄的位址是：http://www.gov.cn/zhengce/zuixin.htm，該頁面顯示近60條最新政策标題

點選某一政策名，進入該政策詳細内容，如國務院關于促進鄉村産業振興的指導意見，位址是：http://www.gov.cn/zhengce/content/2019-06/28/content_5404170.htm

3、爬取目标頁面并儲存為本地檔案

#導入http請求庫requests
import requests
#指定我們的user agent
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
headers = {'User-Agent':user_agent}
# requests.get()方法讀取網頁
r = requests.get("http://www.gov.cn/zhengce/content/2019-06/28/content_5404170.htm",
                headers = headers)
print(r.text)

python資料爬取---簡單頁面的爬取

得到了一個html檔案，但是中文亂碼，因為編碼不一樣

#修改讀取的編碼方式，因為charset="utf-8"，是以要修改成 "utf-8"，否則中文會亂碼
r.encoding='utf-8'
print(r.text)

python資料爬取---簡單頁面的爬取

#requests.get()得到了一個html檔案，可以儲存起來
#指定儲存html檔案的路徑、檔案名和編碼方式
with open ('/Users/Eric/Documents/2019/python/requests.html','w',encoding = 'utf8') as f:
    #将文本寫入
    f.write(r.text)

如果爬取一個頁面并儲存并不會提升我們的效率，下節會講複雜一點的爬取

python資料爬取---簡單頁面的爬取

1、準備Requests和User Agent

2、确定一個目标網站并分析其結構

3、爬取目标頁面并儲存為本地檔案

繼續閱讀

手把手用Python網絡爬蟲帶你爬取全國著名高校附近酒店評論

使用字典管理請求路徑 | 手把手教你入門Python之一百一十七

軟體測試 - 接口測試實戰 | GET／POST 請求差別詳解GET、POST 的差別總結示範環境搭建CURL 指令發起 GET／POST 請求GET／POST 請求對比

python自動化測試：通過faker生成測試資料，通過schema檢查傳回結果需求設計使用方案代碼

天池大資料競賽 Spaceack帶你利用Pandas，趨勢圖與桑基圖分析美國選民候選人喜好度

使用Python編寫iOS原生應用的架構設計思考(首篇二)

Python程式設計：metaclass元類實作簡單的ORM

python程式設計：json indent can't multiply sequence by non-int of type 'str'

Pyhton程式設計：列印json格式的資料

Python：OAuth2第三方登入之Github

jsonpath提取王者全英雄名字前言JSON是什麼jsonpath結語

Django啟航（三）Django模型Django模型

Python字元串和json類型的互相轉換執行個體示範，python字元串轉json、json轉字元串

python自動化測試之檢查一個json是否包含另外一個json需求：代碼實作

獵聘職位資訊爬取：翻頁