常用字元集編碼詳解:ASCII 、GB2312、GBK、GB18030、unicode、UTF-8 ANSI字元串我們最熟悉,英文占一個位元組,漢字2個位元組,以一個\0結尾,常用于txt文本檔案
Unicode字元串,每個字元(漢字、英文字母)都占2個位元組,以2個連續的\0結尾,NT作業系統核心用的是這種字元串,常被定義為typedef unsigned short wchar_t;是以我們有時常會見到什麼char*無法轉換為unsigned short*之類的錯誤,其實就是unicode
UTF8是Unicode一種壓縮形式,英文A在unicode中表示為0x0041,老外覺得這種存儲方式太浪費,因為浪費了50%的空間,于是就把英文壓縮成1個位元組,成了utf8編碼,但是漢字在utf8中占3個位元組,顯然用做中文不如ansi合算,這就是中國的網頁用作ansi編碼而老外的網頁常用utf8的原因。UTF8在還遊戲裡運用的很廣泛,比如WOW的lua腳本等。
ASCII
ASCII碼是7位編碼,編碼範圍是0x00-0x7F。ASCII字元集包括英文字母、阿拉伯數字和标點符号等字元。其中0x00-0x20和0x7F共33個控制字元。
隻支援ASCII碼的系統會忽略每個位元組的最高位,隻認為低7位是有效位。HZ字元編碼就是早期為了在隻支援7位ASCII系統中傳輸中文而設計的編碼。早期很多郵件系統也隻支援ASCII編碼,為了傳輸中文郵件必須使用BASE64或者其他編碼方式。
GB2312
GB2312是基于區位碼設計的,區位碼把編碼表分為94個區,每個區對應94個位,每個字元的區号和位号組合起來就是該漢字的區位碼。區位碼一般 用10進制數來表示,如1601就表示16區1位,對應的字元是“啊”。在區位碼的區号和位号上分别加上0xA0就得到了GB2312編碼。
區位碼中01-09區是符号、數字區,16-87區是漢字區,10-15和88-94是未定義的空白區。它将收錄的漢字分成兩級:第一級是常用漢字計3755個,置于16-55區,按漢語拼音字母/筆形順序排列;第二級漢字是次常用漢字計3008個,置于56-87區,按部首/筆畫順序排列。一級漢字是按照拼音排序的,這個就可以得到某個拼音在一級漢字區位中的範圍,很多根據漢字可以得到拼音的程式就是根據這個原理編寫的。
GB2312字元集中除常用簡體漢字字元外還包括希臘字母、日文平假名及片假名字母、俄語西裡爾字母等字元,未收錄繁體中文漢字和一些生僻字。可以用繁體漢字測試某些系統是不是隻支援GB2312編碼。
GB2312的編碼範圍是0xA1A1-0x7E7E,去掉未定義的區域之後可以了解為實際編碼範圍是0xA1A1-0xF7FE。
EUC-CN可以了解為GB2312的别名,和GB2312完全相同。
區位碼更應該認為是字元集的定義,定義了所收錄的字元和字元位置,而GB2312及EUC-CN是實際計算機環境中支援這種字元集的編碼。HZ和ISO-2022-CN是對應區位碼字元集的另外兩種編碼,都是用7位編碼空間來支援漢字。區位碼和GB2312編碼的關系有點像Unicode和UTF-8。
GBK
GBK編碼是GB2312編碼的超集,向下完全相容GB2312,同時GBK收錄了Unicode基本多文種平面中的所有CJK漢字。同 GB2312一樣,GBK也支援希臘字母、日文假名字母、俄語字母等字元,但不支援韓語中的表音字元(非漢字字元)。GBK還收錄了GB2312不包含的漢字部首符号、豎排标點符号等字元。
GBK的整體編碼範圍是為0x8140-0xFEFE,不包括低位元組是0×7F的組合。高位元組範圍是0×81-0xFE,低位元組範圍是0x40-7E和0x80-0xFE。
低位元組是0x40-0x7E的GBK字元有一定特殊性,因為這些字元占用了ASCII碼的位置,這樣會給一些系統帶來麻煩。
有些系統中用0x40-0x7E中的字元(如“|”)做特殊符号,在定位這些符号時又沒有判斷這些符号是不是屬于某個 GBK字元的低位元組,這樣就會造成錯誤判斷。在支援GB2312的環境下就不存在這個問題。需要注意的是支援GBK的環境中小于0x80的某個位元組未必就是ASCII符号;另外就是最好選用小于0×40的ASCII符号做一些特殊符号,這樣就可以快速定位,且不用擔心是某個漢字的另一半。Big5編碼中也存在相應問題。
CP936和GBK的有些許差别,絕大多數情況下可以把CP936當作GBK的别名。
GB18030
GB18030編碼向下相容GBK和GB2312,相容的含義是不僅字元相容,而且相同字元的編碼也相同。GB18030收錄了所有Unicode3.1中的字元,包括中國少數民族字元,GBK不支援的韓文字元等等,也可以說是世界大多民族的文字元号都被收錄在内。
GBK和GB2312都是雙位元組等寬編碼,如果算上和ASCII相容所支援的單位元組,也可以了解為是單位元組和雙位元組混合的變長編碼。GB18030編碼是變長編碼,有單位元組、雙位元組和四位元組三種方式。
GB18030的單位元組編碼範圍是0x00-0x7F,完全等同與ASCII;雙位元組編碼的範圍和GBK相同,高位元組是0x81-0xFE,低位元組的編碼範圍是0x40-0x7E和0x80-FE;四位元組編碼中第一、三位元組的編碼範圍是0x81-0xFE,二、四位元組是0x30-0x39。
Windows中CP936代碼頁使用0x80來表示歐元符号,而在GB18030編碼中沒有使用0x80編碼位,用其他位置來表示歐元符号。這可以了解為是GB18030向下相容性上的一點小問題;也可以了解為0x80是CP936對GBK的擴充,而GB18030隻是和GBK相容良好。
unicode
每一種語言的不同的編碼頁,增加了那些需要支援不同語言的軟體的複雜度。因而人們制定了一個世界标準,叫做unicode。unicode為每個字元提供了唯一的特定數值,不論在什麼平台上、不論在什麼軟體中,也不論什麼語言。也就是說,它世界上使用的所有字元都列出來,并給每一個字元一個唯一特定數值。
Unicode的最初目标,是用1個16位的編碼來為超過65000字元提供映射。但這還不夠,它不能覆寫全部曆史上的文字,也不能解決傳輸的問題 (implantation head-ache's),尤其在那些基于網絡的應用中。已有的軟體必須做大量的工作來程式16位的資料。
是以,Unicode用一些基本的保留字元制定了三套編碼方式。它們分别是UTF-8,UTF-16和UTF-32。正如名字所示,在UTF-8中,字元是以8位序列來編碼的,用一個或幾個位元組來表示一個字元。這種方式的最大好處,是UTF-8保留了ASCII字元的編碼做為它的一部分,例如,在UTF-8和ASCII中,“A”的編碼都是0x41.
UTF-16和UTF-32分别是Unicode的16位和32位編碼方式。考慮到最初的目的,通常說的Unicode就是指UTF-16。在讨論Unicode時,搞清楚哪種編碼方式非常重要。
UTF-8
Unicode Transformation Format-8bit,允許含BOM,但通常不含BOM。是用以解決國際上字元的一種多位元組編碼,它對英文使用8位(即一個位元組),中文使用24為(三個位元組)來編碼。UTF-8包含全世界所有國家需要用到的字元,是國際編碼,通用性強。UTF-8編碼的文字可以在各國支援UTF8字元集的浏覽器上顯示。如,如果是UTF8編碼,則在外國人的英文IE上也能顯示中文,他們無需下載下傳IE的中文語言支援包。
GBK的文字編碼是用雙位元組來表示的,即不論中、英文字元均使用雙位元組來表示,為了區分中文,将其最高位都設定成1。GBK包含全部中文字元,是國家編碼,通用性比UTF8差,不過UTF8占用的資料庫比GBD大。
GBK、GB2312等與UTF8之間都必須通過Unicode編碼才能互相轉換:
GBK、GB2312--Unicode--UTF8
UTF8--Unicode--GBK、GB2312
對于一個網站、論壇來說,如果英文字元較多,則建議使用UTF-8節省空間。不過現在很多論壇的插件一般隻支援GBK。
1)ANSI是預設的編碼方式。對于英文檔案是ASCII編碼,對于簡體中文檔案是GB2312編碼(隻針對Windows簡體中文版,如果是繁體中文版會采用Big5碼)。
2)Unicode編碼指的是UCS-2編碼方式,即直接用兩個位元組存入字元的Unicode碼。這個選項用的little endian格式。
3)Unicode big endian編碼與上一個選項相對應。
4)UTF-8編碼,也就是上一節談到的編碼方法。
選擇完”編碼方式“後,點選”儲存“按鈕,檔案的編碼方式就立刻轉換好了。