在中国台湾、中国香港、中国澳门地区普遍使用繁体中文的情况下,当地电脑软件或操作系统经常使用Big5(又称大五码)作为繁体中文的默认文字编码。这一点可以类比简体中文系统中常见的GBK编码。同GBK编码一样,Big5编码也是采用双字节编码,兼容ASCII码。也就是说每个繁体中文汉字在Big5下占据2bytes。
最早的正式版Big5是1984年由中国台湾地区“资策会”订制(即BIG5-1984),编码总共收录了13053个汉字,其中常用字5401个,次常用字7652个。除此之外,还收录了408个标点符号或特殊符号。1984版一直流行于民间,但并非官方版,后续在2003年正式纳入了一些扩展字符(即BIG5-2003),成为官方版的Big5版本。因为Big5编码兼容ASCII,所以Big5的2bytes中,第一个byte不会和ASCII有重叠,即第一个Big5编码文字的第一个byte不会出现0x00至0x7F之间的值。但是Big5的第二个byte是有可能在0x00至0x7F之间,即与ASCII值重合的。
这里需要注意的是Big5编码并没有充分考虑到简体中文,虽然最终的Big5编码中包含了一些简体中文的常见字,但是并不全,导致你书写简体中文如果用Big5编码的话,有些字是打不出来的,所以非常不建议在简体中文环境中使用Big5。举个例子,“因为”的“为”子在简体中文里面非常常见,然而Big5编码中并没有简体的“为”字,在港澳台的繁体中文里面,“因为”的“为”应写作繁体中文“為”。
“为”字在Big5中没有收录,取而代之的是“為”
另外,“尴尬”的“尴”字在简体中文中属于常见字,但是Big5编码中也是没有的,取而代之的是“尷”。
“尴”字在Big5中没有收录,取而代之的是“尷”
另一点是,即使Big5和GBK中都有的文字,对同一个文字的具体编码也不一样,例如“港澳台”三个字在GBK和Big5中的值完全没有任何关系(当然,和UTF8更是不相关)。
BIG5编码值和GBK没有任何关系
一图胜千言,我们通过一张二维图来看一下Big5编码中各个文字的值域分布情况。
Big5-1984版本中2字节编码值域与字类型的对应关系
因为Big5编码每个字占据2bytes,所以我们以第一个byte的值为横轴(16进制表示,如1byte最大值255表示为0xFF),第二个byte的值为纵轴,绘制如上表格。该表格清晰地展示了Big5编码中各个值域所代表的文字类别。比如第一位如果是0x00-0x7F,则表示的是Big5与ASCII重合部分(第二位忽略)。第一位在0xA1-0xA3的区域为Big5编码的标点符号和特殊符号区域。如下图,句号“0xA143”、冒号“0xA147”、问号“0xA148”、希腊字母θ(读音/'θi:tə/)“0xA363”,他们的第一位都处于0xA1到0xA3之间。
标点符号区Big5编码值
第一位在0xA4-0xC6之间的基本都是常用字区,在繁体中文中最常用的5401个字的编码值域在此范围内。第一位在0xC9-0xF9之间的区域为次常用字区,繁体中文不常用的7652个字存储在此范围内。我们还在图中看到了一些造字区、保留区,造字区的本意是官方并不规定此值域内的具体文字,留给后续应用程序或操作系统自己定义。保留区的本意是此区域保留,不做编码使用。然而后来随着Big5编码的不断完善,Big5-2003版本发布后,正式将很多定义在保留区和造字区的常用字列入了官方标准当中。例如0xA3E1其实属于保留区,但是后来该值在Big5-2003中被定义为欧元货币符号(€)。
Big5-2003版本收录的保留区部分字符
再例如“广州”的“广”字,Big5编码为0xC6CE,属于造字区,在Big5-2003中被引入官方。
Big5-2003版本收录的造字区部分字符
虽然经过Big5-2003的扩展,很多造字区和保留区已经被使用,不过扩展出的都是在繁体中文当中用得不太频繁的文字或符号。基本上编码还是符合以下规律:首位0xA1-0xA3为符号或标点区域,首位0xA4-0xC6为常用字区域,首位0xC9-0xF9为次常用字区域。
Big5由于是繁体中文的编码,在大陆地区见得比较少,因此网上的学习资料也非常有限。了解字符编码的意义在于,如果我们在开发过程中碰到的乱码的情况,往往就是因为字符编码识别错误导致,要想把乱码恢复正常,就需要不同编码之间的识别和转换。若想正确识别出来一种字符编码,对该字符编码的了解还是非常有必要的。