天天看点

Unicode字符集和多字符集

两个字符集的关系

由于各国语言的加入,ASCII已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。

两个字符集相关类型的说明

类型说明 Unicode ANSI 通用类型
字符 WCHAR CHAR TCHAR
字符串指针 PWSTR LPSTR PTSTR
常量字符串指针 PCWSTR LPCSTR LPCTSTR

如何编写符合ANSI和Unicode的应用程序?

(1) 将文本串视为字符数组,而不是chars数组或字节数组。

(2) 将通用数据类型(如TCHAR和PTSTR)用于文本字符和字符串。

(3) 将显式数据类型(如BYTE和PBYTE)用于字节、字节指针和数据缓存。

(4) 将TEXT宏用于原义字符和字符串。

(5) 执行全局性替换(例如用PTSTR替换PSTR)。

(6) 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小,而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要为字符串分配一个内存块,并且拥有该字符串中的字符数目,那么请记住要按字节来分配内存。这就是说,应该调用malloc(nCharacters *sizeof(TCHAR)),而不是调用malloc(nCharacters)。

如何对Unicode进行操作? 字符集 特性 实例

ANSI 操作函数以str开头 strcpy

Unicode 操作函数以wcs开头 wcscpy

MBCS 操作函数以_mbs开头 _mbscpy

ANSI/Unicode 操作函数以_tcs开头 _tcscpy(C运行期库)

ANSI/Unicode 操作函数以lstr开头 lstrcpy(Windows函数)

所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示;Unicode版本函数结尾以W表示。Windows会如下定义:

#ifdef UNICODE

#define CreateWindowEx CreateWindowExW

#else

#define CreateWindowEx CreateWindowExA

#endif // !UNICODE

如何表示Unicode字符串常量? 字符集 实例

ANSI “string”

Unicode L“string”

ANSI/Unicode _T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }

继续阅读