天天看點

HTML Unicode(UTF-8) 參考手冊

Unicode 聯盟(Unicode Consortium)開發了 Unicode 标準(Unicode Standard)。他們的目标是使用标準的 Unicode 轉換格式(即 UTF,全稱 Unicode Transformation Format)取代現有的字元集。

Unicode 标準是一個成功的創舉,在 HTML、XML、Java、JavaScript、E-mail、ASP、PHP 中都得到實作。Unicode 标準也得到許多作業系統和所有現代浏覽器的支援。

Unicode 聯盟與領先的标準開發組織合作,這些組織有 ISO、W3C 和 ECMA。

Unicode 可以由不同的字元集實作。最常用的編碼是 UTF-8 和 UTF-16:

字元集

描述

UTF-8

UTF8 中的字元可以是 1 到 4 位元組長。UTF-8 可以代表 Unicode 标準中的任何字元。UTF-8 向後相容 ASCII。UTF-8 是電子郵件和網頁的首選編碼。

UTF-16

16 位 Unicode 轉換格式是一種可變長度的 Unicode 字元編碼,能夠編碼整個 Unicode 指令表。UTF-16 主要用于作業系統和環境,如 Microsoft Windows、Java 和 .NET。

<b>提示:</b>Unicode 的前 128 個字元(與 ASCII 一一對應)使用一個與 ASCII二進制值相同的八位組進行編碼,使有效的 ASCII 文本在進行 UTF-8 編碼時也是有效的。

<b>提示:</b>所有的 HTML 4 處理器支援 UTF-8,所有的 HTML 5 和 XML 處理器支援 UTF-8 和 UTF-16!

因為 ISO-8859 中字元集大小是有限的,且在多語言環境中不相容,是以 Unicode 聯盟開發了 Unicode 标準。

Unicode 标準覆寫了(幾乎)所有的字元、标點符号和符号。

Unicode 使文本的處理、存儲和運輸,獨立于平台和語言。

HTML-5 中預設的字元編碼是 UTF-8。

下面列出了一些 HTML5 支援的 UTF-8 字元集:

十進制

十六進制

C0 控制與基本的 Latin(C0 Controls and Basic Latin)

0-127

0000-007F

C1 控制與 Latin-1 的補充(C1 Controls and Latin-1 Supplement)

128-255

0080-00FF

Latin 擴充 A(Latin Extended-A)

256-383

0100-017F

Latin 擴充 B(Latin Extended-B)

384-591

0180-024F

如果 HTML5 網頁使用不同于 UTF-8 的字元,則需要在 &lt;meta&gt; 标簽中指定,如下:

&lt;meta charset="ISO-8859-1"&gt;