天天看点

《C语言编程魔法书:基于C11标准》——2.5 字符编码

本节书摘来自华章计算机《c语言编程魔法书:基于c11标准》一书中的第2章,第2.5节,作者 陈轶,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

我们从2.2节到2.4节讲述的都是数值信息(整数与浮点数),本小节我们将讨论字符信息。在计算机中我们所处理的字符信息,即文本信息(包括数字、字母、文字、标点符号等)是以一种特定编码格式来定义的。为了使世界各国的文本信息能够通用,就需要对字符编码做标准化。我们现在最常用也最基本的字符编码系统是ascii码(american standard code for information interchange,美国信息交换标准码)。ascii码定义每个字符仅占一个字节,可表示阿拉伯数字0~9、26个大小写英文字母,以及我们现在在标准键盘上能看到的所有标点符号、一些控制字符(比如换行、回车、换页、振铃等)。ascii码最高位是奇偶校验位,用于通信校验,所以真正有编码意义的是低7个比特,因此只能用于表示128个字符(值从0~127)。由于ascii是美国国家标准,所以后来国际化标准组织将它进行国际标准化,定义为了iso/iec 646标准。两者所定义的内容是等价的。

iso/iec 646对于英文系国家而言是基本够用了,但是对于拉丁语系、希腊等国家来说就不够用了。所以后来iso组织就把原先iso/iec 646所定义字符的最高位也用上了,这样就又能增加128个不同的字符,发布了iso/iec 8859标准。然而,欧洲大陆虽小,但国家却有数百个,128种扩展字符仍然不够用。因此后来就在8859的基础上,引入了8859-n,n从1~16,每一种都支持了一定数量的不同的字母,这样基本能满足欧美国家的文字表示需求。当然,有些国家之间仍然需要切换编码格式,比如iso/iec8859-1的语言环境看8859-2的就可能显示乱码,所以,还得切换到8859-2的字符编码格式下才能正常显示。

而在中国大陆,我们自己也定义了一套用于显示简体中文的字符集——gb2312。它在1981年5月1日开始实施,是中国国家标准的简体中文字符集,全称为《信息交换用汉字编码字符集·基本集》。它收录了6763个汉字,包括拉丁字母、希腊字母、日语假名、俄语和蒙古语用的西里尔字母在内的682个全角字符。然后又出现了gbk字符集,gbk1.0收录了21886个符号,其中汉字就包含了21003个。gbk字符集主要扩展了繁体中文字。由于像gb2312与gbk能表示成千上万种字符,因此这已经远超1个字节所能表示的范围。它们所采用的是动态变长字节编码,并且与ascii码兼容。如果表示ascii码部分,那么仅1个字节即可,并且该字节最高位为0。如果要表示汉字等扩展字符,那么头1个字节的最高位为1,然后再增加一个字节(即用两个字节)进行表示。所以,理论上,除了第1个字节的最高位不能动之外,其余比特都能表示具体的字符信息,因而最多可表示27+215=32896种字符。

当然,正由于gb2312与gbk主要用于亚洲国家,所以当欧美国家的人看到这些字符信息时显示的是乱码,他们必须切换到相应的汉字编码环境下看才能看到正确的文本信息。为了能真正将全球各国语言进行互换通信,出现了unicode(universal character set,ucs)标准。它对应于编码标准iso/iec 10646。unicode前后也出现了多个版本。早先的ucs-2采用固定的双字节编码方式,理论上可表示216=65536种字符,因此极大地涵盖了各种语言的文字符号。

不过后来,标准委员会意识到,对于像希伯来字母、拉丁字母等压根就不需要用两个字节表示,而且定长的双字节表示与原有的ascii码又不兼容,因此后来出现了现在用得更多的utf-8编码标准。utf-8属于变长的编码方式,它最少可用1个字节表示1个字符,最多用4个字节表示1个字符,判别依据就是看第1个字节的最高位有多少个1。如果第1个字节的最高位是0,那么该字符用1个字节表示;最高3位是110,那么用2个字节表示;最高4位是1110,那么用3个字节表示;最高位是11110,那么该字符由4个字节来表示。所以utf-8现在大量用于网络通信的字符编码格式,包括大多数网页用的默认字符编码也都是utf-8编码。尽管utf-8更为灵活,而且也与ascii码完全兼容,但不利于程序解析。所以现在很多编程语言的编译器以及运行时库用得更多的是utf-16编码来处理源代码解析以及各类文本解析,它与之前的ucs-2编码完全兼容,但也是变长编码方式,可用双字节或四字节来表示一个字符。如果用双字节表示utf-16编码的话,范围从0x0000到0xd7ff,以及从0xe000到0xffff。这里留出0xd800到0xdfff,不作为具体字符的编码表示,而是用于四字节编码时的编码替换。当utf-16表示0x10000到0x10ffff之间的字符时,先将该范围内的值减去0x10000,使得结果落在0x00000到0xfffff范围内。然后将结果划分为高10位与低10位两组。将低10位的值与0xdc00相加,获得低16位;高10位与0xd800相加,获得高16位。比如,一个unicode定义的码点(code point)为0x10437的字符,用utf-16编码表示的步骤如下。

1)先将它减去0x10000——0x10437-0x10000=0x0437。

2)将该结果分为低10位与高10位,0x0437用20位二进制表示为0000 0000 0100 0011 0111,因此高10位是0000 0000 01=0x01;低10位则是00 0011 0111,即0x037。

3)将高10位与0xd800相加,得到0xd801;将低10位与0xdc00相加,获得0xdc37。因此最终utf-16编码为0xd801dc37。

我们看到,尽管utf-16也是变长编码表示,但是仅低16位就能表示很多字符符号,况且即便要表示更广范围的字符,也只是第二种四字节的表示方法,这远比utf-8四种不同的编码方式要简洁很多。因此,utf-16用在很多编程语言运行时系统字符编码的场合比较多。像现在的java、objective-c等编程语言环境内部系统所表示的字符都是utf-16编码方式。

另外,现在还有utf-32编码方式,这一开始也是unicode标准搞出来的ucs-4标准,它与ucs-2一样,是定长编码方式,但每个字符用固定的4字节来表示。不过现在此格式用得很少,而且html5标准组织也公开声明开发者应当尽量避免在页面中使用utf-32编码格式,因为在html5规范中所描述的编码侦测算法,故意不对它与utf-16编码做区分。

继续阅读