天天看点

Python必知词汇:字符集

字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、UTF-8字符集、Unicode字符集等。

计算机要准确的处理各种字符集文字,就需要进行字符编码,以便文本在计算机的存储和通信过程中进行传递。

在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显,于是人们开发了许多方法来扩展它们。目前较为常见的字符集有以下几种:

  • ASCII为美国所用编码标准,使用7位数字对美国常用字符进行编码,其中包含128个字符。
  • ISO-8859-1为欧洲标准的编码,使用8位数字进行编码,包含256个字符。
  • GB2312、GBK为中国标准编码。
  • Unicode为万国码,包含世界上所有的语言与符号,其编码格式有多种实现,包括UTF-8、UTF-16、UTF-32等。编程人员最常用的为UTF-8编码。

在编写程序时,若出现乱码的情况,可能是编码与解码的格式不统一造成的,应立刻检查检查字符集是否正确。

资料来源:

  • 维基百科词条:字符编码
  • 百度百科词条:字符集