天天看點

Python中文亂碼問題(轉)

1、設定PyCharm工具的編碼格式:File--》setting--》Editor--》FileEncodings--》IDE encoding:utf-8 

2、在PyCharm子產品檔案的第二行加入語句:#-*-coding:utf-8-*- 

3、在File--》Setting--》File and CodeTemplates子產品裡加入下面的語句:

#-*-coding:utf-8-*- 

__author__ = '$USER' 

4、檔案中所有的字元串前都加u,如 u"中文"

注意:#-*-coding:utf-8-*- 一定要在第一行 ,可以是#encoding=utf-8 或者#coding=utf-8 ;

           對中文來說,常見的就是utf-8和cp936(windows上為CP936),一般建議使用utf-8,這兩種形式分别是# -*- coding: cp936 -*-和#-*-coding:utf-8-*- 

——檔案編碼是UTF-8,同時在檔案頭添加 # -*- coding: utf-8 -*-

——檔案中所有的字元串前都加u,如 u"中文"

——在輸入(抓取某些utf-8/gbk的網頁)、輸出(輸出到網頁、終端)時,要記住python内部是用Unicode存儲的

——所有輸入要先decode,變成unicode,輸出時要encode變成想要的編碼(MacOS X/Linux下輸出為utf-8,Windows下輸出為gbk,但如果是在pycharm自己的控制台下的話,windows下輸出為utf-8也可以正常顯示)

——還有其他很多種古老的解決方案,比如統一用gbk,比如中轉編碼不用unicode,而用utf-8,等等。

——源碼檔案用coding: utf-8指定編碼并把檔案儲存為utf-8格式

——為了作為__main__子產品執行時不出不必要的錯誤,統一使用\n換行

——如果需要在源碼内嵌入漢字等非ascii字元,建議使用u字首作為unicode字元串,這樣在print時可以可以不做編碼轉換,

——否則如果控制台編碼與源檔案編碼不一緻就必須顯式轉換,通過locale.getdefaultlocale()可以擷取系統語言和編碼

——涉及檔案路徑的最好轉換為sys.getfilesystemencoding()編碼

——unicode字元串在寫入檔案時必須轉換為某種位元組編碼

——json預設支援utf-8編碼

——盡量用utf-8和unicode,除了前面說的檔案路徑和寫入檔案等少數情況