JAVA字元編碼系列二：Unicode,ISO-8859-1,GBK,UTF-8編碼及互相轉換

第二篇：JAVA字元編碼系列二：Unicode,ISO-8859-1,GBK,UTF-8編碼及互相轉換

１、函數介紹

在Java中，字元串用統一的Unicode編碼，每個字元占用兩個位元組，與編碼有關的兩個主要函數為：

１）将字元串用指定的編碼集合解析成位元組數組，完成Unicode－〉charsetName轉換

public byte[] getBytes(String charsetName) throws UnsupportedEncodingException　

２）将位元組數組以指定的編碼集合構造成字元串，完成charsetName－〉Unicode轉換

public String(byte[] bytes, String charsetName) throws UnsupportedEncodingException

２、Unicode與各編碼之間的直接轉換

下面以對中文字元串＂ａ中文＂的編碼轉換為例，來了解各種編碼之間的轉換

１）Unicode和GBK

測試結果如下，每個漢字轉換為兩個位元組，且是可逆的，即通過位元組可以轉換回字元串

String－GBK〉ByteArray：\u0061\u4E2D\u6587（a中文）－〉0x61 0xD6 0xD0 0xCE 0xC4

ByteArray－GBK〉String：0x61 0xD6 0xD0 0xCE 0xC4－〉\u0061\u4E2D\u6587（a中文）

２）Unicode和UTF-8

測試結果如下，每個漢字轉換為三個位元組，且是可逆的，即通過位元組可以轉換回字元串

String－UTF-8〉ByteArray：\u0061\u4E2D\u6587（a中文）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87

ByteArray－UTF-8〉String：0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87－〉\u0061\u4E2D\u6587（a中文）

３）Unicode和ISO-8859-1

測試結果如下，當存在漢字時轉換失敗，非可逆，即通過位元組不能再轉換回字元串

String－ISO-8859-1〉ByteArray：\u0061\u4E2D\u6587（a中文）－〉0x61 0x3F 0x3F

ByteArray－ISO-8859-1〉String：0x61 0x3F 0x3F－〉\u0061\u003F\u003F（a??）

３、Unicode與各編碼之間的交叉轉換

在上面直接轉換中，由字元串（Unicode）生成的位元組數組，在構造回字元串時，使用的是正确的編碼集合，如果使用的不是正确的編碼集合會怎樣呢？會正确構造嗎？如果不能正确構造能有辦法恢複嗎？會資訊丢失嗎？

下面我們就來看看這種情況，這部分可以說明在某些情況下雖然我們最終正确顯示了結果，但其間仍然進行了不正确的轉換。

１）能夠正确顯示的中間不正确轉換

我們知道String－GBK〉ByteArray－GBK〉String是正确的，但如果我們采用String－GBK〉ByteArray－ISO-8859-1〉String呢？通過測試結果如下：

String－GBK〉ByteArray－ISO-8859-1〉String：\u0061\u4E2D\u6587（a中文）－〉0x61 0xD6 0xD0 0xCE 0xC4－〉\u0061\u00D6\u00D0\u00CE\u00C4（a????）

這時我們得到的字元串為？亂碼“a????”，但是通過繼續轉換我們仍然可以複原回正确的字元串“a中文”，過程如下：

String－GBK〉ByteArray－ISO-8859-1〉String－ISO-8859-1〉ByteArray－GBK〉String

對應：\u0061\u4E2D\u6587（a中文）－〉0x61 0xD6 0xD0 0xCE 0xC4－〉\u0061\u00D6\u00D0\u00CE\u00C4（a????）－〉0x61 0xD6 0xD0 0xCE 0xC4－〉\u0061\u4E2D\u6587（a中文）

也就是我們在首次構造字元串時，我們用了錯誤的編碼集合得到了錯誤的亂碼，但是我們通過錯上加錯，再用錯誤的編碼集合擷取位元組數組，然後再用正确的編碼集合構造，就又恢複了正确的字元串。這時就屬于是“能夠正确顯示的中間不正确轉換”。在Jsp頁面送出資料處理時常常發生這種情況。

此外能夠正确顯示的中間不正确轉換還有：

String－UTF-8〉ByteArray－ISO-8859-1〉String－ISO-8859-1〉ByteArray－UTF-8〉String

和

String－UTF-8〉ByteArray－GBK〉String－GBK〉ByteArray－UTF-8〉String

對應：\u0061\u4E2D\u6587（a中文）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87－〉\u0061\u6D93\uE15F\u6783（a涓枃）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87－〉\u0061\u4E2D\u6587（a中文）

４、編碼過程中錯誤診斷參考

１）一個漢字對應一個問号

在通過ISO-8859-1從字元串擷取位元組數組時，由于一個Unicode轉換成一個byte，當遇到不認識的Unicode時，轉換為0x3F，這樣無論用哪種編碼構造時都會産生一個？亂碼。

２）一個漢字對應兩個問号

在通過GBK從字元串擷取位元組數組時，由于一個Unicode轉換成兩個byte，如果此時用ISO-8859-1或用UTF-8構造字元串就會出現兩個問号。

若是通過ISO-8859-1構造可以再通過上面所說的錯上加錯恢複（即再通過從ISO-8859-1解析，用GBK構造）；

若是通過UTF-8構造則會産生Unicode字元＂\uFFFD＂，不能恢複，若再通過String－UTF-8〉ByteArray－GBK〉String，則會出現雜碼，如a锟斤拷锟斤拷

３）一個漢字對應三個問号

在通過UTF-8從字元串擷取位元組數組時，由于一個Unicode轉換成三個byte，如果此時用ISO-8859-1構造字元串就會出現三個問号；用GBK構造字元串就會出現雜碼，如a涓枃。

本文來自CSDN部落格，轉載請标明出處：http://blog.csdn.net/qinysong/archive/2006/09/05/1179489.aspx

JAVA字元編碼系列二：Unicode,ISO-8859-1,GBK,UTF-8編碼及互相轉換

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method