關于Python的requests中text中文亂碼的問題

2023-03-07 11:06:09

今天學習python爬蟲是遇到了字元編碼的問題

target = 'http://www.biqukan.com/1_1094/5403177.html'
req = requests.get(url=target)
print req.text

列印出來的中文都是亂碼，現在說一下解決方案。

首先要明确的是，req.text傳回的是unicode，也就是說無法再decode，是以網上那些先decode再encode的方法是沒法使用的，這種方法适用的是req.content。

通過檢視網站源碼，發現網站使用的charset是gbk，Requests 會自動解碼來自伺服器的内容。大多數 unicode 字元集都能被無縫地解碼。請求發出後，Requests 會基于 HTTP 頭部對響應的編碼作出有根據的推測。當你通路 r.text 之時，Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什麼編碼，并且能夠使用 r.encoding 屬性來改變它，我認為requests對編碼做出了錯誤的判斷，是以進行了下面的設定：

req.encoding='gbk'

注意，這裡的gbk是因為網頁使用的是gbk。

然後再對text進行編碼

text = req.text
print text.encode('utf-8')

就能正确的列印出中文了

完整的代碼如下：

# coding: UTF-8
import requests

if __name__ == '__main__':
    target = 'http://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    req.encoding='gbk'
    # content = req.content.decode('gbk').encode('utf-8')
    # print content
    text = req.text
    print(isinstance(text, unicode))
    print text.encode('utf-8')

關于Python的requests中text中文亂碼的問題

繼續閱讀

魔數（代碼大全第12章：基本資料類型）

項管行知01--幾個經理1 定義2 曆史

《電磁學》學習筆記5——磁場強度H分子環流假說

項目管理二三事1、時間2、鐵三角 3、PMBOK4、PMBOK版本變更5 小結

安卓學習筆記（2）----LinearLayoutLinearLayout

安卓學習筆記（3）------RelativeLayoutRelativeLayout參考文獻

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

.NET中英文切換常見錯誤

閱讀教材的最佳方法是什麼？

《程式員的職業素養》四——編碼

辨別符的命名規則和規範辨別符命名規則辨別符命名規範基礎版Java代碼規範詳細版

藍橋杯單片機比賽蜂鳴器與繼電器子產品（原理、代碼詳解）

UE學習筆記：材質錯亂排序函數

V4L2視訊采集與H264編碼1—V4L2采集JPEG資料

Netty——自定義協定解決TCP粘包拆包問題什麼是TCP粘包拆包自定義協定解決拆包粘包問題

sort()函數到底是怎樣進行數字排序的