Unicode,全稱為Unicode標準(The Unicode Standard),其官方機構所用的中文名称为統一碼,又译作萬國碼、統一字元碼、统一字符编码,是領域的業界,其整理、編碼了世界上大部分的,使得能以通用劃一的來處理和顯示文字,不但減輕在不同編碼系統間切換和轉換的困擾,更提供了一種的問題解決方案。Unicode由(Unicode Consortium)負責維護,該機構致力讓Unicode標準取代既有的字符編碼方案,因為既有方案編碼空間有限,亦不適用於環境。
![]() 標誌 | |
别名 | (UCS) |
---|---|
语言 | 全球性 |
标准 | 統一碼标准 |
编码格式 | , , 不常用: , , 已淘汰: |
前用 | , 其他 |
Unicode伴隨著/ 10646的標準而發展,同時也以書本的形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本為2022年9月公布的15.0.0,已經收錄超過14萬個(第十萬個字符在2005年獲採納)。Unicode標準不僅僅只是為文字指定代碼。除了涵蓋視覺上的字形、編碼方法、標準的资料外,聯盟官方出版品還包含了關於各的細節及呈現方式,如的準則、拆分、、、、书写方向、字符特性(如大小寫字母)等等。此外還提供參考資料和視覺圖像,以幫助開發者和設計師正確應用標準。
Unicode備受認可,為納入国际标准,成為,即 ISO/IEC 10646。Unicode兼容ISO/IEC 10646,能完整对应各个版本标准。Unicode廣泛應用於電腦软件的過程。很多新科技,如(Extensible Markup Language,簡稱:XML)、以及現代,都採用Unicode來編碼。Unicode最普遍的編碼格式是和兼容的,以及和兼容的。
起源與發展
Unicode為解决傳統方案的侷限而產生,例如所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不相容的情況。很多傳統的編碼方式都有共同的問題,即容許電腦處理雙語環境(通常使用以及其本地語言),但卻無法同時支援多語言環境(指可同時處理多種語言混合的情況)。
Unicode编碼包含了不同寫法的字,如“ɑ/a”、“強/强”、“戶/户/戸”。然而在方面引起了一字多形的認定爭議,詳見。
在文字處理方面,統一碼為每一個字符而非字形定義唯一的代碼(即一個整數)。換句話說,統一碼以一種抽象的方式(即數字)來處理字符,並將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態、文體等)留給其他軟件來處理,例如網頁瀏覽器或是文字處理器。
目前,幾乎所有電腦系統都支持基本拉丁字母,并各自支持不同的其他编碼方式。Unicode为了和它們相互兼容,其首256个字元保留給ISO 8859-1所定義的字元,使既有的西歐語系文字的轉換不需特別考量;并且把大量相同的字元重複編到不同的字元碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換,而不會遺失任何資訊。舉例來說,格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文字形當中,這些字元以全形的方式來呈現,而不以常見的半形形式顯示,這對豎排文字和等寬排列文字有重要作用。
在表示一個Unicode的字元時,通常會用「U+」然後緊接着一組十六進位的数字來表示這一個字元。在裏的所有字元,要用四个数字(即2位元組,共16位元,例如U+4AE0,共支持六萬多個字符);在零號平面以外的字元則需要使用五或六個數字。舊版的Unicode標準使用相近的標記方法,但卻有些微小差異:在Unicode 3.0裏使用「U-」然後緊接着八個數字,而「U+」則必須隨後緊接着四個數字。
標準
位於美國加州的Unicode組織允許任何願意支付會費的公司和個人加入,其成員包含了主要的電腦軟硬體廠商,例如、、、、、等。
20世纪80年代末,組成Unicode組織的商業機構,和國際合作的在電腦普及和資訊國際化的前提下,分別各自成立了Unicode組織和ISO-10646工作小組。他們不久便發現對方的存在,而大家工作目的一致。1991年,Unicode Consortium与ISO/IEC JTC1/SC2同意保持Unicode碼表與ISO 10646標準保持兼容並密切協調各自標準進一步的擴展。雖然實際上兩者的字集編碼相同,但本質上兩者確為不同的標準。Unicode 1.1對應於ISO 10646-1:1993,Unicode 3.0對應於ISO 10646-1:2000,Unicode 3.2對應於ISO 10646-2:2001,Unicode 4.0對應於ISO 10646:2003,Unicode 5.0對應於ISO 10646:2003及附錄1–3。
Unicode自2.0版本開始保持了向後兼容,即新版本僅增加字符,原有字符不會删除或更名。但從Unicode 14.0起,既有的區段可擴展或縮減(必須在沒有字符使用空間的前提下,若已有字符佔用空間不可縮減區段),第一個自Unicode 1.1以來擴展的既有區段為(Ahom)。
統一碼聯盟在1991年首次發佈了The Unicode Standard。Unicode的開發結合了所制定的,即。Unicode與ISO/IEC 10646在編碼的運作原理相同,但The Unicode Standard包含了更詳盡的實現資訊、涵蓋了更細節的主題,諸如位元編碼(bitwise encoding)、校對以及呈現等。The Unicode Standard也列舉了諸多的字元特性,例如必須支援兩種閱讀方向的字符(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。Unicode與ISO/IEC 10646兩個標準在術語上的使用有些微的不同。
Unicode的第十萬個字元(用於)于2005年引入標準。
历史
截至目前的Unicode各版本及其發佈時間如下:
其中,因應,Unicode 14.0由2021年3月延後至2021年9月发布。
版本 | 發布日期 | 書籍 | 對應版本 | 文字數 | 字元數 | |
---|---|---|---|---|---|---|
總計 | 已知的擴增 | |||||
1.0.0 | 1991年10月 | (Vol. 1) | 24 | 7,161 | 最初包含的文字有:、、、、、、、、、、、、、、、、、、、、、與。 | |
1.0.1 | 1992年6月 | (Vol. 2) | 25 | 28,359 | 定義最初的20,902個字。 | |
1.1 | 1993年6月 | ISO/IEC 10646-1:1993 | 24 | 34,233 | 於原有2,350個字母的基礎上新增4,306個諺文字母。移除。 | |
2.0 | 1996年7月 | ISO/IEC 10646-1:1993與其第5-7修訂版 | 25 | 38,950 | 移除原有的字母設置,於新的編碼範圍更換成11,172個新的諺文字母。重新加入,但編碼位置更換。代理字符機制建立,並將第15與第16平面分配給私人使用區。 | |
2.1 | 1998年5月 | ISO/IEC 10646-1:1993與其第5-7修訂版,以及第18修訂版中新增的2個字元 | 25 | 38,952 | 新增與。 | |
3.0 | 1999年9月 | ISO/IEC 10646-1:2000 | 38 | 49,259 | 新增、、、、、、、、、、和,以及部分图案。 | |
3.1 | 2001年3月 | ISO/IEC 10646-1:2000 ISO/IEC 10646-2:2001 | 41 | 94,205 | 新增、、、和,增加了42711个()。 | |
3.2 | 2002年3月 | ISO/IEC 10646-1:2000與其第1修訂版 ISO/IEC 10646-2:2001 | 45 | 95,221 | 新增文字、、、。 | |
4.0 | 2003年4月 | ISO/IEC 10646:2003 | 52 | 96,447 | 新增、、、、、、以及。 | |
4.1 | 2005年3月 | ISO/IEC 10646:2003與其第1修訂版 | 59 | 97,720 | 新增、、、、、和。从区段分离。新增了。 | |
5.0 | 2006年7月 | ISO/IEC 10646:2003與其第1、2修訂版,以及第3修訂版中新增的4個字元 | 64 | 99,089 | 新增、、、和。 | |
5.1 | 2008年4月 | ISO/IEC 10646:2003與其第1-4修訂版 | 75 | 100,713 | 新增、、、、、、、、、和。同时增加了、和符号。对做了重要的补充,追加了手抄缩写的额外字母,追加了。 | |
5.2 | 2009年10月 | ISO/IEC 10646:2003與其第1-6修訂版 | 90 | 107,361 | 新增、、(,涵盖1071个符号)、、、、、、、、、、、和。追加4,149个(),同时扩展了和的字符。 | |
6.0 | 2010年10月 | ISO/IEC 10646:2010與 | 93 | 109,449 | 新增、、、符号、、符号、、和。追加222个额外的()。 | |
6.1 | 2012年1月 | ISO/IEC 10646:2012 | 100 | 110,181 | 新增、、、、、和。 | |
6.2 | 2012年9月 | ISO/IEC 10646:2012與 | 100 | 110,182 | 。 | |
6.3 | 2013年9月 | ISO/IEC 10646:2012與6個字元 | 100 | 110,187 | 5个双向排版符号。 | |
7.0 | 2014年6月 | ISO/IEC 10646:2012與其第1、2修訂版,以及符號 | 123 | 113,021 | 新增、、、、、、、、、、、、、、、、、、、、、、以及。 | |
8.0 | 2015年6月 | ISO/IEC 10646:2014與其第1修訂版,以及符號、9個中日韓統一表意文字與41個表情符號 | 129 | 120,737 | 增加、、、、、、5,771个字符()、小写字母,以及五种修改字符。 | |
9.0 | 2016年6月 | ISO/IEC 10646:2014与其第1、2修订版,阿德拉姆字母、尼泊尔纽瓦字母、日本电视符号和74个绘文字表情与符号。 | 135 | 128,237 | 新增、、、、、以及74个绘文字 | |
10.0 | 2017年6月 | ISO/IEC 10646:2017,新增56个符号、385个字符,和3个札那巴札尔字符 | 139 | 136,755 | 、、、、(非标准)、7,494个字符()与56个 | |
11.0 | 2018年6月 | ISO/IEC 10646:2017與其第1修訂版,新增145个符号、5个急用汉字,符号、符号等 | 146 | 137,374 | 、骑士体大写字母、、、、、、以及145个绘文字 | |
12.0 | 2019年3月 | ISO/IEC 10646:2017與其第1、2修訂版,新增61个符号、一些方言字符、古日文用小型、的符号、控制字符等 | 150 | 137,928 | 、、、以及61个绘文字 | |
12.1 | 2019年5月 | 150 | 137,929 | 只在U+32FF新增了一個字符,即日本新年號的合字。 | ||
13.0 | 2020年3月 | ISO/IEC 10646:2020 | 154 | 143,924 | 、的、、的、4969個中日韓統一表意文字(4939個位於())、書寫用的阿拉伯附加字母、、其他非洲語言、在巴基斯坦書寫和的補充字元、用的、授權符號、1970年代和1980年代電訊用圖符、55個 | |
14.0 | 2021年9月 | 159 | 144,697 |
| ||
15.0 | 2022年9月 | 166 | 149,186 | 和、4,192個字符()、用於埃及象形文字的控制字元以及20個繪文字。 | ||
15.1 | 2023年9月 | 167 | 149,813 | 622個字符()。 |
Unicode的编码和实现
大概来说,Unicode编码系统可分为编码方式和实现方式两个层次。
十大设计原则
《The Unicode Standard Version 6.2 – Core Specification》 文档给出了Unicode的十大设计原则:
- Universality:提供单一、综合的字符集,编码一切现代与大部分历史文献的字符。
- Efficiency:易于处理与分析。
- Characters, not glyphs:字符,而不是字形。
- Semantics:字符要有良好定义的语义。
- Plain text:仅限于文本字符。
- Logical order:默认内存表示是其逻辑序。
- Unification:把不同语言的同一书写系统(scripts)中相同字符统一起来。
- Dynamic composition:可以动态组合。
- Stability:已分配的字符与语义不再改变。
- Convertibility:Unicode与其他著名字符集可以精确转换。
编码方式
統一碼的编碼方式與的概念相對應。目前实际应用的統一碼版本对应于,使用16的编码空间。也就是每个字符占用2个。这样理论上一共最多可以表示216(即65536)个字符。基本满足各种语言的使用。实际上目前版本的統一碼並未完全使用这16位编码,而是保留了大量空间以作为特殊使用或将来扩展。
上述16位統一碼字符构成。最新(但未实际廣泛使用)的統一碼版本定义了16个,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与保持一致。未来版本会扩充到ISO 10646-1实现级别3,即涵盖UCS-4的所有字符。UCS-4是更大而尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上最多能表示231个字符,完全可以涵盖一切语言所用的符号。
基本多文种平面的字符的编码为U+hhhh,其中每个h代表一个数字,与UCS-2编码完全相同。而其对应的4字节UCS-4编码后两个字节一致,前两个字节則所有位均为0。
实现方式
Unicode的实现方式不同于编码方式。一个字符的Unicode编码确定。但是在实际传输过程中,由于不同的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)。
例如,如果一个仅包含基本7位字符的Unicode文件,如果每个字符都使用2字节的原Unicode编码传输,其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况,可以使用UTF-8编码,这是变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。而遇到与其他Unicode字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1识别。这样对以7位ASCII字符为主的西文文档就大幅节省了编码长度(具体方案参见)。类似的,对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符,2字节编码的也需要通过一定的算法转换。
再如,如果直接使用与Unicode编码一致(仅限于BMP字符)的UTF-16编码,由于每个字符占用了两个字节,在(Mac)机和上,对字节顺序的理解不一致。这时同一字节流可能会解释为不同内容,如某字符为十六进制编码4E59,按两个字节拆分为4E和59,在Mac上读取时是从低字节开始,那么在Mac OS会认为此4E59编码为594E,找到的字符为“奎”,而在Windows上从高字节开始读取,则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”,在Mac OS環境下開啟会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆,于是在UTF-16编码实现方式中使用了(Big-Endian,简写为UTF-16 BE)、(Little-Endian,简写为UTF-16 LE)的概念,以及可附加的解决方案,目前在個人電腦上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。(具体方案参见)
此外Unicode的实现方式还包括、、、、、等,这些实现方式有些仅在一定的国家和地区使用,有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序(LE)、UTF-16大端序(BE)和UTF-8。在微软公司附带的(Notepad)中,“另存为”对话框可以选择的四种编码方式除去非Unicode编码的(对于英文系统即编码,中文系统则为或编码)外,其余三种为“Unicode”(对应UTF-16 LE)、“Unicode big endian”(对应UTF-16 BE)和“UTF-8”。
目前辅助平面的工作主要集中在第二和第三平面的,因此包括、、等、、、以及越南的各种编码与Unicode的协调性受重点关注。考虑到Unicode最终要涵盖所有的字符。从某种意义而言,这些编码方式也可视作Unicode的出现于其之前的既成事实的实现方式,如同及其扩展一样,后两者的字符在16位Unicode编码空间中的编码第一字节各位全为0,第二字节编码与原编码完全一致。但上述东亚语言编码与Unicode编码的对应关系要复杂得多。
Unicode字符平面映射
Unicode 將編碼空間分成 17 個,以 0 到 16 編號。
第 0 平面(或者說)中的碼點,都可以用一個 單位來編碼,或者以 來編碼的話,會使用一、二或三個位元組。而第 1 到 16 平面(或稱輔助平面)中的碼點,UTF-16 會以代理對的方式來使用,而 UTF-8 則會編碼成 4 個位元組。
在每個平面中,會先將相關的字符集結為的形式。雖然區段可以是任意大小,但會以 16 個碼點的倍數,且通常是 128 個碼點的倍數。而一份文稿中使用到的區段,可能會散布在多個區段中。
非Unicode环境
在非Unicode环境下,由于不同国家和地区采用的字符集不一致,很可能出现无法正常显示所有字符的情况。微软公司使用了(Codepage)转换表的技术来过渡性地部分解决这一问题,即通过指定的转换表将非Unicode的字符编码转换为同一字符对应的系统内部使用的Unicode编码。可以在“语言与区域设置”中选择一个代码页作为非Unicode编码所采用的默认编码方式,如936为简体中文,950为繁体中文(皆指PC上使用的)。在这种情况下,一些非英语的欧洲语言编写的软件和文档很可能出现乱码。而将代码页设置为相应语言中文处理又会出现问题,这一情况无法避免。只有完全采用统一编码才能徹底解決這些問題,但目前尚无法做到这一点。
代码页技术现在广泛为各种平台所采用。UTF-7的代码页是65000,UTF-8的代码页是65001。
XML和Unicode
及其子集采用作为标准,理论上我们可以在各种支持XML标准的浏览器上显示任何地区文字的网页,只要电脑本身安装有合适的字体即可。可以利用&#
nnn;
的格式显示特定的字符。nnn代表该字符的Unicode代码。如果采用代码,在编码之前加上x
字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。
过去电脑编码的8位标准,使每个国家都只按国家使用的字符而编定各自的编码系统;而对於部份字符系统比较复杂的语言,如,又或者东亚国家的大型字符集,都不能在8位的环境下正常显示。 只是最近才有在文本中对十六进制的支持,那么旧版本的浏览器显示那些字符或许可能有问题——大概首先会遇到的问题只是在对于大于8位Unicode字符的显示。解决这个问题的普遍做法仍然是将其中的十六进制码转换成一个十进制码(例如:♠
用♠
代替♠
)。
也有一些字符集标准将一些常用的标志存放在字符内码外面,那么你可能使用像—
这样的文本标志来表示一个长划(—)的情况,即使它的字符内码已经使用,这些标准也不包含那个字符。
然而部分由于Unicode版本发展原因,很多浏览器只能显示UCS-2完整字符集,也即现在使用的Unicode版本中的一个小子集。下表可以检验您的浏览器如何显示各种Unicode代码:
代码 | 字符标准名称(英语) | 在浏览器上的显示 |
---|---|---|
A | 大写“A” | A |
ß | 小写拉丁字母“Sharp S” | ß |
þ | 小写拉丁字母“Thorn” | þ |
Δ | 大写“Delta” | Δ |
Й | 大写“Short I” | Й |
ק | “Qof” | ק |
م | “Meem” | م |
๗ | 7 | ๗ |
ቐ | “Qha” | ቐ |
あ | 日语“A” | あ |
ア | 日语“A” | ア |
叶 | “叶” | 叶 |
葉 | 汉字“葉” | 葉 |
엽 | “Yeop” | 엽 |
一些多语言支持的网页浏览器,比如系统的 5.5及以上版本,以及跨平台的浏览器/ 6,可以在安裝時根据需要动态地使用相应的字符集,预先安装了合适的语言包,就可以同时显示页面上的各种Unicode字符。 5.5还提出用户可以在需要新字体时,即装即用。另外的浏览器如 4.77,则只能显示跟页面编码相应字符集中的文字。当你使用后一种浏览器时,你不大可能预先安装所有的字体,即使有了字体,浏览器也不一定能将这些字体完全应用起来。可能遇到的情况是,这种浏览器只能够显示部分文字,因为它们是按照标准编码,尽管理论上在兼容的系统中,只要有了相应的字体,就可以正确显示。一种变通的办法,是将某些少见的字符,通过“名称实体引用”的方式来使用。
输入方法
不同的操作系统,各有直接输入Unicode字符的方法:
- 基于的系统,如的Gnome Terminal,首先按下++U,然后输入16进制Unicode数,如输入00b7,最后按空格键;
- 系统,按下+0183表示。
在、、的文本中,使用或表示一个Unicode字符。
中文輸入法
截至2011年10月,可以使用2003或2007版本、第三代第五代第六代版本、Unicode版本、9.3版本、新和輸入。
- 在啟動狀態下,單擊語言欄上的「功能選單」按鈕,指向「輔助輸入法」即可發現「Unicode碼輸入方式」,利用它可以直接輸入Unicode相應值的方式輸入相應文字。例如中文「胥」輸入「5066」,朝鮮文字「셅」輸入「c145」(不需要在前面加0x或x)。新版本下也可以输入VUC(大小写不敏感)再输入编码。
- 已爲Unicode漢字、類漢字編碼,可以在倉頡輸入法方式下通過倉頡碼輸入方式輸入Unicode內的中日韓漢字及韓文。以倉頡輸入法第五代爲例,例如「㗎」輸入「口大口木」,漢字「胥」輸入「弓人月」,漢字「㿱」輸入「手中木竹水」,朝鮮文字「닮」輸入「尸卜尸女口」。由於使用的收字比Unicode還多,目前Unicode既有漢字皆已有倉頡編碼。
- 已爲Unicode漢字、類漢字編碼,可以在鄭碼輸入法方式下通過字碼輸入方式輸入Unicode內的中日韓漢字及韓文。例如「㗎」輸入「JYJF」,漢字「胥」輸入「XIQ」,漢字「㿱」輸入「DPXI」,朝鮮文字「길」輸入「XIYY」。
- 此輸入法已經直接支持透過碼輸入方式輸入Unicode內的任意中日韓漢字,但無法使用鍵入Unicode碼的方式輸入。例如(Unicode部分)「㗎」為「keks」,擴展B區的「𣿱」為「iyho」和CJK擴展C區的「𫆦」為「muih」。
- 新在輸入法啟動狀態時,打入鍵盤上的「多功能前導字元鍵」(即通用鍵盤上之「`」),第一次使用會彈出說明。輸入Unicode字元「胥」則是在鍵盤上鍵入「`U5066」。而韓語中的「셅」,則輸入「`UC145」。而要輸入「峠」,則是「`U5CE0」。
- 在Vim環境中,可以直接鍵入十進制或十六進制Unicode碼。既不需要啟動輸入法,也不需要碼表。
- ,支援Unicode,以26個字母為組字按鍵,可直接輸入符號、及、,但漢字部份一般只支援基本正體中文、簡體中文,的漢字要另行擴充編碼才能輸入,的漢字尚無編碼。
日文输入法
使用Microsoft IME 2007,可以在IME Pad找到Unicode的点击表。点击字符即可输入。选择字体可以预览字符效果。
其他
除了輸入法外,也會提供另外幾種方法輸入Unicode。像是之後的Windows系統就提供可點擊的。又或者在下,按下Alt鍵不放,使用輸入0和某個字符的Unicode编码(),再鬆開Alt键即可得到该字符,如Alt033865會得到Unicode字元葉
。另外,按AltX组合键,Microsoft Word也会将光标前面的字符同其的四位Unicode编码互相转换。
注释
- 下列的總計數是圖形、格式及控制字符的總數目,即不計算私人使用區、非字元及代理字符在內。
參考文獻
- . unicode.org. [2021-03-25]. (原始内容存档于2021-04-21).
- 陈冰. Flash第一步 ActionScript编程篇. 清华大学出版社有限公司. 2006: 373. .
- The Unicode Standard 第五版. Addison-Wesley Professional. 2007. .
- Unicode. Unicode 15.0. Unicode Consortium. 2022-09-15 [2022-09-15]. (原始内容于2023-01-20).
- . www.unicode.org. [2021-10-03]. (原始内容存档于2022-04-23).
- . www.unicode.org. [2021-10-03]. (原始内容存档于2021-12-14).
- Unicode. [2004-04-02]. (原始内容于2018-03-19).
- . www.unicode.org. [2021-09-20]. (原始内容存档于2021-10-23).
- Unicode, Inc. . [2020-06-12]. (原始内容存档于2022-02-03).
- Unicode Data 1.0.0. [2010-03-16]. (原始内容于2012-06-30).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-16]. (原始内容存档于2022-03-21).
- . [2010-03-17]. (原始内容存档于2022-03-21).
- . [2010-03-17]. (原始内容存档于2022-04-19).
- . [2010-03-17]. (原始内容存档于2022-03-21).
- . [2010-10-11]. (原始内容存档于2022-03-21).
- . [2012-01-31]. (原始内容存档于2022-03-26).
- . [2012-09-26]. (原始内容存档于2022-03-26).
- . [2013-09-30]. (原始内容存档于2022-04-07).
- . [2014-06-15]. (原始内容存档于2022-04-07).
- Unicode 8.0.0. Unicode Consortium. [2015-06-17]. (原始内容于2016-06-28).
- . [2015-06-17]. (原始内容存档于2021-03-24).
- . Unicode Consortium. [2016-06-21]. (原始内容存档于2020-02-28).
- . [2016-06-21]. (原始内容存档于2022-04-07).
- Unicode 10.0.0. Unicode Consortium. [2017-06-20]. (原始内容于2017-06-20).
- . [2017-06-20]. (原始内容存档于2021-11-21).
- . Unicode Consortium. [2018-06-06]. (原始内容存档于2021-03-30).
- . [2018-06-06]. (原始内容存档于2022-04-08).
- . Unicode Consortium. [2019-03-13]. (原始内容存档于2021-03-30).
- . [2019-03-13]. (原始内容存档于2022-04-20).
- Unicode Version 12.1 released in support of the Reiwa Era. blog.unicode.org. [2019-05-07]. (原始内容于2019-05-07).
- (PDF). Unicode Consortium. [2020-03-11]. (原始内容 (PDF)存档于2021-08-05).
- . blog.unicode.org. [2020-03-11]. (原始内容存档于2022-04-26).
- . blog.unicode.org. [2022-09-15]. (原始内容存档于2022-09-15).
- Announcing The Unicode® Standard, Version 15.0. blog.unicode.org. [2022-09-15]. (原始内容于2023-01-07).
- Announcing The Unicode® Standard, Version 15.1. blog.unicode.org. [2023-09-12]. (原始内容于2023-01-07).
- The Unicode Standard, Version 6.2, 2012 Unicode, Inc. Chapter 2 General Structure 2.2 Unicode Design Principles (PDF). [2017-04-18]. (原始内容 (PDF)于2022-04-01).
参閲
- (CJK/Unihan)
- (表示語言讀音)
外部链接
![image](https://www.wiki2.zh-cn.nina.az/image/aHR0cHM6Ly93d3cud2lraTIuemgtY24ubmluYS5hei9pbWFnZS9hSFIwY0hNNkx5OTFjR3h2WVdRdWQybHJhVzFsWkdsaExtOXlaeTkzYVd0cGNHVmthV0V2WTI5dGJXOXVjeTkwYUhWdFlpOW1MMlpoTDFkcGEybGliMjlyY3kxc2IyZHZMbk4yWnk4ME1IQjRMVmRwYTJsaWIyOXJjeTFzYjJkdkxuTjJaeTV3Ym1jPS5wbmc=.png)
- Unicode official site(Unicode官方網站)
- (页面存档备份,存于)(Unicode聯盟)
- Unicode 7.0.0 (页面存档备份,存于)
- ,提供Unicode 6.0全部109242個字的GIF字型預覽
- Alan Wood's Unicode Resources (页面存档备份,存于)
- (國際音標的Unicode编碼)
- CJK Compatibility Ideographs (页面存档备份,存于)(中日韓兼容表意文字)
- Unicode character charts(页面存档备份,存于)(Unicode字符映射表)
- UTF-8 Codepage (页面存档备份,存于)(UTF-8代碼頁)
- Unicode 11.0 (页面存档备份,存于)(Unicode 11.0字符汇总,PDF)