《C语言编程魔法书：基于C11标准》——2.5　字符编码

本节书摘来自华章计算机《c语言编程魔法书：基于c11标准》一书中的第2章，第2.5节，作者陈轶，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

我们从2.2节到2.4节讲述的都是数值信息（整数与浮点数），本小节我们将讨论字符信息。在计算机中我们所处理的字符信息，即文本信息（包括数字、字母、文字、标点符号等）是以一种特定编码格式来定义的。为了使世界各国的文本信息能够通用，就需要对字符编码做标准化。我们现在最常用也最基本的字符编码系统是ascii码（american standard code for information interchange，美国信息交换标准码）。ascii码定义每个字符仅占一个字节，可表示阿拉伯数字0～9、26个大小写英文字母，以及我们现在在标准键盘上能看到的所有标点符号、一些控制字符（比如换行、回车、换页、振铃等）。ascii码最高位是奇偶校验位，用于通信校验，所以真正有编码意义的是低7个比特，因此只能用于表示128个字符（值从0～127）。由于ascii是美国国家标准，所以后来国际化标准组织将它进行国际标准化，定义为了iso/iec 646标准。两者所定义的内容是等价的。

iso/iec 646对于英文系国家而言是基本够用了，但是对于拉丁语系、希腊等国家来说就不够用了。所以后来iso组织就把原先iso/iec 646所定义字符的最高位也用上了，这样就又能增加128个不同的字符，发布了iso/iec 8859标准。然而，欧洲大陆虽小，但国家却有数百个，128种扩展字符仍然不够用。因此后来就在8859的基础上，引入了8859-n，n从1～16，每一种都支持了一定数量的不同的字母，这样基本能满足欧美国家的文字表示需求。当然，有些国家之间仍然需要切换编码格式，比如iso/iec8859-1的语言环境看8859-2的就可能显示乱码，所以，还得切换到8859-2的字符编码格式下才能正常显示。

而在中国大陆，我们自己也定义了一套用于显示简体中文的字符集——gb2312。它在1981年5月1日开始实施，是中国国家标准的简体中文字符集，全称为《信息交换用汉字编码字符集·基本集》。它收录了6763个汉字，包括拉丁字母、希腊字母、日语假名、俄语和蒙古语用的西里尔字母在内的682个全角字符。然后又出现了gbk字符集，gbk1.0收录了21886个符号，其中汉字就包含了21003个。gbk字符集主要扩展了繁体中文字。由于像gb2312与gbk能表示成千上万种字符，因此这已经远超1个字节所能表示的范围。它们所采用的是动态变长字节编码，并且与ascii码兼容。如果表示ascii码部分，那么仅1个字节即可，并且该字节最高位为0。如果要表示汉字等扩展字符，那么头1个字节的最高位为1，然后再增加一个字节（即用两个字节）进行表示。所以，理论上，除了第1个字节的最高位不能动之外，其余比特都能表示具体的字符信息，因而最多可表示27+215=32896种字符。

当然，正由于gb2312与gbk主要用于亚洲国家，所以当欧美国家的人看到这些字符信息时显示的是乱码，他们必须切换到相应的汉字编码环境下看才能看到正确的文本信息。为了能真正将全球各国语言进行互换通信，出现了unicode（universal character set，ucs）标准。它对应于编码标准iso/iec 10646。unicode前后也出现了多个版本。早先的ucs-2采用固定的双字节编码方式，理论上可表示216=65536种字符，因此极大地涵盖了各种语言的文字符号。

不过后来，标准委员会意识到，对于像希伯来字母、拉丁字母等压根就不需要用两个字节表示，而且定长的双字节表示与原有的ascii码又不兼容，因此后来出现了现在用得更多的utf-8编码标准。utf-8属于变长的编码方式，它最少可用1个字节表示1个字符，最多用4个字节表示1个字符，判别依据就是看第1个字节的最高位有多少个1。如果第1个字节的最高位是0，那么该字符用1个字节表示；最高3位是110，那么用2个字节表示；最高4位是1110，那么用3个字节表示；最高位是11110，那么该字符由4个字节来表示。所以utf-8现在大量用于网络通信的字符编码格式，包括大多数网页用的默认字符编码也都是utf-8编码。尽管utf-8更为灵活，而且也与ascii码完全兼容，但不利于程序解析。所以现在很多编程语言的编译器以及运行时库用得更多的是utf-16编码来处理源代码解析以及各类文本解析，它与之前的ucs-2编码完全兼容，但也是变长编码方式，可用双字节或四字节来表示一个字符。如果用双字节表示utf-16编码的话，范围从0x0000到0xd7ff，以及从0xe000到0xffff。这里留出0xd800到0xdfff，不作为具体字符的编码表示，而是用于四字节编码时的编码替换。当utf-16表示0x10000到0x10ffff之间的字符时，先将该范围内的值减去0x10000，使得结果落在0x00000到0xfffff范围内。然后将结果划分为高10位与低10位两组。将低10位的值与0xdc00相加，获得低16位；高10位与0xd800相加，获得高16位。比如，一个unicode定义的码点（code point）为0x10437的字符，用utf-16编码表示的步骤如下。

1）先将它减去0x10000——0x10437-0x10000=0x0437。

2）将该结果分为低10位与高10位，0x0437用20位二进制表示为0000 0000 0100 0011 0111，因此高10位是0000 0000 01=0x01；低10位则是00 0011 0111，即0x037。

3）将高10位与0xd800相加，得到0xd801；将低10位与0xdc00相加，获得0xdc37。因此最终utf-16编码为0xd801dc37。

我们看到，尽管utf-16也是变长编码表示，但是仅低16位就能表示很多字符符号，况且即便要表示更广范围的字符，也只是第二种四字节的表示方法，这远比utf-8四种不同的编码方式要简洁很多。因此，utf-16用在很多编程语言运行时系统字符编码的场合比较多。像现在的java、objective-c等编程语言环境内部系统所表示的字符都是utf-16编码方式。

另外，现在还有utf-32编码方式，这一开始也是unicode标准搞出来的ucs-4标准，它与ucs-2一样，是定长编码方式，但每个字符用固定的4字节来表示。不过现在此格式用得很少，而且html5标准组织也公开声明开发者应当尽量避免在页面中使用utf-32编码格式，因为在html5规范中所描述的编码侦测算法，故意不对它与utf-16编码做区分。

《C语言编程魔法书：基于C11标准》——2.5　字符编码

继续阅读

C语言-----初阶指针详解

输出蛇形矩阵 C语言输出蛇形矩阵

1.54寸TFT ST7789液晶屏图片如何取模

三子棋——年轻人的第一款小游戏前言正文总结

DOG（4）：解析器的部分实现细节先来说说parser一些可能迷惑的地方结果如何返回?pcd其实是一回事最后的一点说明

NYOJ 269--VF

二叉树三种遍历(先序，中序，后序)----超详细引入先序遍历后序遍历中序遍历总结

UVA 110 Meta-Loopless Sorts

CRC32和CRC8校验代码，C语言版

241 Different Ways to Add Parentheses（C代码版）

C语言：初学者必定看懂的注释！！！猴子吃桃问题。猴子第一天摘下若干个桃子，每天都吃了前一天剩下的一半零一个，到第10天早上想再吃的时候，就剩下一个桃子. 求第一天共摘多少个桃子。

[转]九大排序算法——C语言实现及详解

while 循环、do- while 循环和 for 循环之间的那点事C语言自学之三种循环比较

结构体：typedef与struct的区别

hdu7108哈希

《C语言编程魔法书：基于C11标准》——2.5 字符编码

继续阅读

《C语言编程魔法书：基于C11标准》——2.5　字符编码