fbpx
维基百科

中日韓統一表意文字

中日韓統一表意文字(英語:CJK Unified Ideographs),或譯中日韓等同表意文字[1]中日韓認同表意文字[2]中日韓統一漢字集[3]中日韓統合漢字[4],又稱作統漢碼統一漢字集(英語:Unihan),建立目的是將琉球文起源相同、本義相通、形狀一樣或稍異的表意文字,在ISO 10646統一碼標準賦予相同編碼。這作業活動在統一碼標準稱為漢字等同[5](英語:Han unification,或譯為漢字認同漢字統一漢字統合)。整理出來的中日韓統一表意文字,由統一碼聯盟建置的Unihan資料庫維護。

中日韓統一漢字集所含括的對象為漢字及其衍生出來的語素文字,包括繁體字簡化字日本漢字漢字かんじ)、韓國漢字漢字한자)、琉球汉字漢字ハンジ)、越南的喃字𡨸喃Chữ Nôm)與儒字𡨸儒Chữ Nho)、方塊壯字𭨡sawgun)。

歷史 编辑

1978年,日本產業規格制訂了基於ISO/IEC 2022JIS C 6226,為全世界最早的漢字編碼,包含6349漢字。1980年代,臺灣(CCCIICNS 11643)、中國大陸(GB 2312)、韓國(KS C 5601)開始制訂了各自的編碼規範。這些規範彼此之間並無連繫。若要在一份文件中同時使用,則要以跳脫字元的方式來交換。

1980年,日本的國立國會圖書館的高橋德太郎以書目學的觀點指出,統一的東亞漢字編碼系統有必要。同年,臺灣制定了三位元組的中文資訊交換碼,這是第一款期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此標準,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/WG 2)。這編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對,並在1989年提出各國漢字統合集合(Han Character Collection,HCC)的構想。

1990年完成了ISO 10646的初版草案(DIS 10646)。漢字用32位元表示,並將各國的漢字編碼原封不動加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後能順利討論漢字編碼及處理有關方針,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。

另一方面,1987年,全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓的漢字統合了。基本方針以16位元處理所有文字。1990年完成了基於此方針的最終草案。1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓類似的漢字使用約二萬多字。為了未來擴充,保留了三萬漢字以供其它用途。

1991年,各國希望能以一致的方式處理文字,否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但發現一些缺失,之後修正。

1993年5月正式制訂最初的「中日韓統一表意文字」位於U+4E00-U+9FFF,共20902字;不過漢字“”(U+3007)誤當數字放入符號和標點區。一個月後制訂了統一碼1.1。

1999年,依據ISO/IEC 10646的第17修正案(Amendment 17)訂定扩展區A,於U+3400-U+4DFF加入6582漢字。

2001年,依據ISO/IEC 10646-2新增擴充區B,於U+20000-U+2A6FF有42711漢字;但短時間內增加大量漢字,產生許多重複字形。

2005年,依據ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文種平面增加U+9FA6-U+9FBB,共22漢字。

2009年,統一碼5.2扩展區C增加U+2A700-U+2B734,基本多文種平面增加U+9FC4-U+9FCB。

2010年,統一碼6.0扩展區D增加U+2B740-U+2B81F。

2012年,統一碼7.0基本多文種平面增加1漢字:U+9FCC。

2015年,統一碼8.0扩展區E增加U+2B820-U+2CEAF,基本多文種平面增加U+9FCD-U+9FD5。

2017年,统一码10.0扩展區F增加U+2CEB0-U+2EBEF,基本多文種平面增加U+9FD6-U+9FEA。

2018年,統一碼11.0基本多文種平面末尾增加5漢字:U+9FEB-U+9FEF。

2020年,統一碼13.0增加4969漢字,其中4939字位於第三平面擴展區G,碼位爲U+30000-U+3134A。同時,亦在基本區增加13字:U+9FF0-U+9FFC,在擴展A區增加10字:U+4DB6-U+4DBF,在擴展B區增加7字:U+2A6D7-U+2A6DD。

2021年,統一碼14.0基本多文種平面末尾增加3漢字:U+9FFC-U+9FFF。同時,亦在擴展B區增加2字:U+2A6DE-U+2A6DF,在擴展C區增加4字:U+2B735-U+2B738。

2022年,統一碼15.0增加4193漢字,其中4192字位於第三平面的擴展區H,碼位爲U+31350-U+323AF。同時,亦在擴展C區增加7字:U+2B739。

2023年,統一碼15.1增加622漢字,位於第二平面的擴展區I,碼位爲U+2EBF0 - U+2EE5D。

另外,第三平面的U+38000至U+3AB9F預計放置篆书,相關提案已經提交。按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等[6]

版本 编辑

ISO 10646版本 統一碼版本 新增 置放平面 字數 累計

字數

1993 1.0 中日韓統一表意文字(U+4E00-U+9FA5) 基本多文種平面 20902 20915
1漢字(U+3007,〇),於中日韓符號和標點 基本多文種平面 1
在「中日韓相容表意文字」中但實則獨一的漢字(U+FA0E﨎、U+FA0F﨏、U+FA11﨑、U+FA13﨓、U+FA14﨔、U+FA1F﨟、U+FA21﨡、U+FA23﨣、U+FA24﨤、U+FA27﨧、U+FA28﨨、U+FA29﨩)[註 1] 基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展區A(U+3400-U+4DB5) 基本多文種平面 6582 27497
2001 3.1 中日韓統一表意文字擴展區B(U+20000-U+2A6D6) 第二辅助平面 42711 70208
2003第一修訂版 4.1 HKSCS-2004未加入ISO 10646的漢字(U+9FA6-U+9FB3,龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB,龴龵龶龷龸龹龺龻) 基本多文種平面 22 70230
2003第四修訂版 5.1 7日語漢字[8](U+9FBC-U+9FC2,龼龽龾龿鿀鿁鿂),U+4039䀹拆分為U+4039䀹和U+9FC3鿃[9] 基本多文種平面 8 70238
2003第五修訂版 5.2 中日韓統一表意文字擴展區C(U+2A700-U+2B734) 第二辅助平面 4149 74395
2003第六修訂版 2日語用漢字(ARIB #47、#95,U+9FC4鿄,U+9FC5鿅)、1新增漢字(ARIB #93,U+9FC6鿆)、HKSCS-2004推出後新增的5香港漢字[10](U+9FC7-U+9FCB,鿇鿈鿉鿊鿋) 基本多文種平面 8
2010 6.0 中日韓統一表意文字擴展區D(U+2B740-U+2B81D) 第二輔助平面 222 74617
2012 6.1 1漢字(U+9FCC鿌) 基本多文種平面 1 74618
2015 8.0 中日韓統一表意文字擴展區E(U+2B820-U+2CEA1) 第二輔助平面 5762 80389
「急用漢字」:《通用规范汉字表》餘下未收入的3字(U+9FCD-U+9FCF,鿍鿎鿏),1个从U+4CA4()分离出来的字U+9FD0(鿐),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5,鿑鿒鿓鿔鿕) 基本多文種平面 9
2017 10.0 中日韓統一表意文字擴展區F(U+2CEB0-U+2EBE0) 第二輔助平面 7473 87883
21漢字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) 基本多文種平面 21
2018 11.0 5漢字(U+9FEB-U+9FEF,鿫鿬鿭鿮鿯),前三字是新命名的化學元素用字,後兩字來自日本 基本多文種平面 5 87888
2020 13.0 中日韓統一表意文字擴展區G(U+30000-U+3134A) 第三輔助平面 4939 92857
急用科學與技術用字[11](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10個需分離的漢字[12][13][14](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) 基本多文種平面 23
崑曲工尺譜用字[15](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) 第二辅助平面 7
2021 14.0 3漢字(U+9FFD-U+9FFF,鿽鿾鿿) 基本多文種平面 3 92866
2漢字(U+2A6DE-U+2A6DF,𪛞𪛟) 第二辅助平面 2
4漢字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸) 第二辅助平面 4
2022 15.0 中日韓統一表意文字擴展區H(U+31350–U323AF) 第三輔助平面 4192 97058
1漢字(U+2B739,𫜹) 第二辅助平面 2

成員機構 编辑

收字來源 编辑

总计 编辑

中日韩统一表意文字来源[註 2]
提交源(类别) 提交量
  中国大陆(国标源) 65941
  香港 17654
  澳門 344
  臺灣 58597
  日本 16148
  韩国 20739
  朝鲜 23795
  越南 13278
  英国 2503
大藏經文本數據庫委員會 3455
統一碼協會 1019
总计 223653

最初期統一漢字 编辑

最初期共20902統一漢字,範圍為U+4E00-U+9FA5,收字來源包括以下字集[17]

類別 來源代碼 名稱 字數
中國大陸
國標源(G)
G0 GB 2312-80 6763
G1 GB 12345-90 2352(含58香港字和92吏讀字,不包括和GB 2312重複的字)
G3 GB 7589-87繁體版本 7237
G5 GB 7590-87繁體版本 7039
G7 現代漢語通用字表 42(G0、1、3、5、8未包括的字)
G8 GB 8565.2-89 290(G0、1、3、5未包括的字)
臺灣源(T) T1 CNS 11643-1986第一字面 5401+9計量用漢字
T2 CNS 11643-1986第二字面 7650
TE CNS 11643-1986第十四字面 6319+239中文資訊交換碼特字+10全錄字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6335+非漢字1個(仝)[18]
J1 JIS X 0212-90 5801
韓國源(K) K0 KS C 5601-87 4888(含268重見字[19]
K1 KS C 5657-91 2856
委員會源(U) KS C 5601-1987(當中重複的漢字)
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[20]
大五碼
中文資訊交換碼第一字面
GB 12052-89(漢字部分)
JEF(富士通標準)
中國大陸電報碼
臺灣電報碼(CCDC)
全錄中文編碼
人名用漢字准用字體表(人名用漢字許容字体表;日本)
IBM選取的日本和韓國表意文字

其中,統一碼技術委員會源(U源)指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用原字集分離原則(見稍後)。

擴展A區 编辑

擴展A區包含有6592漢字,位置在U+3400-U+4DBF。這6千多漢字分別從以下字典或字集取得:

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_KX 康熙字典 5357(獨有1892字)
G_HZ 漢語大字典 5888(獨有339字)
G3 GB 7589-87繁体版本 2391
G5 GB 7590-87繁体版本 1226
G7 現代漢語通用字表 120
GS 新加坡漢字 226
臺灣源(T) T3 CNS 11643-1992第三字面(原為CNS 11643-1986第十四字面)新加入字符 2178
T4 CNS 11643-1992第四字面 2917
T5 CNS 11643-1992第五字面 395
T6 CNS 11643-1992第六字面 197
T7 CNS 11643-1992第七字面 133
TF CNS 11643-1992第十五字面 86
日本源(J) JA 日本資訊科技零售商統一當代表意文字(1993) 574
韓國源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994 1834
越南源(V) V0 TCVN 5773:1993 138
V1 TCVN 6056:1995

擴展B區 编辑

擴展B區有42717漢字,位置在U+20000-U+2A6DD。根據IRG N777號文件(页面存档备份,存于互联网档案馆),這四萬多漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_KX 《康熙字典》 18486(包括在補遺篇出現的一字)
G_HZ 《漢語大字典》 28914
G_CY 辭源 66
G_CH 辭海 247
G_HC 漢語大詞典 553
G_BK 中國大百科全書 86
G_FZ 北大方正排版系统 65
G_4K 四庫全書 522
香港源(H) H 香港增補字符集(HKSCS) 1081
臺灣源(T) T4 CNS 11643-1992第四字面 3408
T5 CNS 11643-1992第五字面 8111
T6 CNS 11643-1992第六字面 5934
T7 CNS 11643-1992第七字面 6299
TF CNS 11643-1992第十五字面 6401
日本源(J) J3 JIS X 0213:2000,level 3 25
J3A JIS X 0213:2004,level 3 1
J4 JIS X 0213:2000,level 4 277
韓國源(K) K4 PKS 5700-3:1998 166
朝鮮源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000 5766
越南源(V) V2 VHN 01:1998 2290
V3 VHN 02:1998 425

這些漢字有不少重複,經整理後實際只有42711漢字。另外,U+2F800-U+2FA1D放了來自臺灣的542兼容漢字。

統一碼4.1漢字 编辑

為使統一碼向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,4.1版引進了香港增補字符集的14用字和GB 18030的8用字。該22字編於U+9FA6-U+9FBB。

另外,U+FA70-U+FAD9放了來自北韓的106兼容漢字。

統一碼5.1漢字 编辑

2008年4月推出的統一碼5.1版收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[21],和鿃(大字加兩個字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來統一碼3.0收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論意義和發音均不同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[22]

擴展C區 编辑

於2009年10月發布的統一碼5.2涵蓋了擴展C區,共收錄4149漢字,包括來自中國大陆澳門臺灣日本越南等尚未編碼的漢字,在U+2A700-U+2B734。這四千多漢字分別從以下字典或字集取得:

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_BK 中國大百科全書 74
G_FZ 北京大学方正排版系统 1
G_HZ 《漢語大字典》 1
G_HC 《漢語大詞典》 14
G_GH 《古代漢語詞典》 50
G_GJZ 商務印書館用字 61
G_XC 現代漢語詞典 25
G_CH 《辭海》 264
G_KX 《康熙字典》及補遺 6
G_CYY 中國測繪科學研究院用字 55
G_ZFY 《漢語方言大辭典》 202
G_ZJW 《殷周金文集成引得》 366
臺灣源(T) TC CNS 11643-1992第12字面 634
TD CNS 11643-1992第13字面 767
TE CNS 11643-1992第14字面 350
澳門源 MAC 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16
日本源(J) JK 日本國字集(Japanese KOKUJI Collection) 367
韓國源(K) K5 韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404(當中主要包含古代字例)
朝鮮源(KP) KP1 KPS 10721:2003 5357(獨有1892字)
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委員會源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯:夏威夷大學出版社)
耶穌基督後期聖徒教會香港分會用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋:哈佛大學出版社)
宋本《廣韻
《中國鳥類系統檢索》(鄭作新等,北京:科學出版社,2000)
段玉裁說文解字注


擴展D區 编辑

擴展D區包含的都是所謂的「急用漢字」,合共222新漢字,於2010下半年發布的統一碼6.0中,編碼範圍為U+2B740-U+2B81F(實際有字元為U+2B740-U+2B81D)。

擴展D區原本計劃放置擴展C區未收錄的16000多漢字,但在2007年5月,臺灣撤销了6545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人已去世或移居外地[23],此後擴展D區縮減到大約10000字左右[24]。由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_CH 《辭海》 1
G_IDC 公安部身份證系統人名和地名用字 31
G_XC 《现代汉语词典》 4
G_ZH 中华字海 39
臺灣源(T) TB CNS 11643-2007第11平面24字(教育部閩客方言用字) 24
日本源(J) JH 通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム日本經濟產業省提出的人名和地名用字) 108
委員會源(U) Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字 15

擴展E區 编辑

扩展E区亦在2015年6月17日的統一碼8.0中发布,放置于编码范围U+2B820-U+2CEAF。

扩展E区本应包含扩展D区未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215汉字[25],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共5762字[26]
这些汉字来源如下:

类别 来源代码 名称 字数
中國大陸
国标源(G)
G_BK 中国大百科全书 15
G_CH 《辞海》 112
G_CY 《辞源》 3
G_CYY 中国测绘科学院用字(地名用字) 98
G_DZ 地質出版社用字 1
G_GH 《古代汉语词典》 176
G_HC 《汉语大词典》 7
G_IDC 公安部身份证系统人名和地名用字 36
G_JZ 商务印书馆用字 147
G_KX 康熙字典 22
G_RM 人民日報用字 3
G_WZ 漢語大詞典出版社用字 12
G_XC 《现代汉语词典》 57
G_XH 新華字典 4
G_ZFY 《汉语方言大辞典》 712
G_ZJW 《殷周金文集成引得》 1410
臺灣源(T) TC CNS 11643-1992第12平面323字(台湾人名用字) 323
TD CNS 11643-1992第13平面595字(台湾人名用字) 595
TE CNS 11643-1992第14平面339字(台湾人名用字) 339
日本源(J) JK 日本国字集 415
澳門源(M) MAC 澳門資訊系統字集 48
委員會源(U) UTC 从各处收集到的未收录汉字 227
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] 1028
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用漢字 编辑

「急用漢字」是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入統一碼8.0,位置在U+9FCD-U+9FD5;當中中國大陸在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。

擴展F區 编辑

扩展F区在2017年6月20日的統一碼10.0发布,编码范围为U+2CEB0-U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。

这些汉字的来源如下:

类别 来源代码 名称 字数
中國大陸
国标源(G)
G_CY 《辞源》 122
G_FC 现代汉语规范词典 27
G_IDC 公安部身份证用字 1
G_LGYJ 《壮族嘹歌研究》 1
G_OCD 《牛津英汉汉英词典》 2
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 70
G_XHZ 《新华大字典》 51
G_Z 《古壮字字典》 995
G_ZJW 《殷周金文集成引得》 33
G_ZYS 《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》 2
日本源(J) JMJ 日本文字信息基础工程 1645
韩国源(K) KC 韩国历史情报统合系统 1793
澳門源(M) MAC 澳門資訊系統字集 22
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 2884
委員會源(U) UTC 从各处收集到的未收录汉字 1

擴展G區 编辑

於2020年3月10日公佈的統一碼13.0中在第三輔助平面收錄擴展區G的4939漢字,碼位為U+30000-U+3134A[27][28]

这些汉字的来源如下(部分字符來自多於一處來源,所以下表總數多於收錄總數4939字):

类别 来源代码 名称 字数
中國大陸
国标源(G)
G_HZR 《汉语大字典》(第二版) 878
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 13
G_Z 《古壮字字典》 1191
韩国源(K) KC 韩国历史情报统合系统(한국 역사 정보 통합 시스템) 428
臺灣源(T) T13 CNS 11643第19字面(將設立的新平面) 347
TB CNS 11643第11字面 3
TC CNS 11643第12字面 2
TD CNS 11643第13字面 1
英國源(UK) UK IRG N2107R2 1566
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 329
委員會源(U) UTC 从各处收集到的未收录汉字 239

擴展H區 编辑

2022年9月13日公佈的統一碼15.0在第三輔助平面收錄擴展區H的4192漢字,碼位為U+31350-U+323AF。

这些汉字的来源如下(部分字符來自多於一處來源,下表總數多於收錄總數4192字):

类别 来源代码 名称 字数
中國大陸
国标源(G)
GDM 中华人民共和国公安部治安管理局地名汉字 128
GHC 漢語大詞典 27
GKJ 全国科学技术名词审定委员会术语定名用字 30
GLGYJ 壮族嘹歌研究 11
GPGLG 壮族民歌文化丛书•平果嘹歌 14
GXM 217
GZ 古壮字字典 285
GZA-1 生生不息的传承•孝与壮族行孝歌之研究 6
GZA-2 壮族伦理道德长诗传扬歌译注 38
GZA-3 壮族民歌古籍集成•情歌(一)嘹歌 2
GZA-4 壮族民歌古籍集成•情歌(二)欢𭪤 11
GZA-6 中国壮族谚语 59
GZA-7 远古的追忆•壮族创世神话古歌研究 1
韩国源(K) KC 韩国历史情报统合系统 512
朝鲜源(KP) KP1 KPS 10721-2000 1
臺灣源(T) T12 TCA-CNS 11643第十八平面 7
T13 TCA-CNS 11643第十九平面 696
T4 CNS 11643-1992第四平面 1
T6 CNS 11643-1992第六平面 1
TB CNS 11643-2007第十一平面 4
TC CNS 11643-2007第十二平面 3
TE CNS 11643-2007第十四平面 2
英國源(UK) UK IRG N2232R 917
越南源(V) V0 TCVN 5773:1193 6
V4 汉喃编码字汇 74
VN 越南横向扩展用字 851
大藏经研究组(SAT) 大藏经文字数据库 241
委員會源(U) UTC 161

扩展I区 编辑

2023年9月12日公布的统一码15.1在第二辅助平面收录扩展区I的622个汉字,码位为U+2EBF0-U+2EE5F。

这些汉字的来源如下:

类别 来源代码 名称 字数
中國大陸
国标源(G)
GIDC23 公安部身份证系统人名和地名用字2023版 622

認同原則與原字集分離原則 编辑

 
「次」字的台灣教育部字形大陸规范汉字韓國的漢字越南的漢字日本的漢字

表意文字認同原則(Han Unification Rule,又稱表意文字統合原則)與原字集分離原則(Source Separation Rule,又稱來源字集分離原則原規格分離原則),是兩項對立原則,它們是統一碼整理中日韓統一表意文字的基礎。

東亞各國字形多有微妙的差異。如「房」字的第一筆,韓國傳統漢字字形、臺灣教育部標準字體作撇「」;香港教育參考字形、中國大陆規範作點「」;日本標準作橫「」。又如「次」字的左旁,韓國採用傳統字形,首筆爲橫,次筆爲挑;臺灣教育部作兩橫;大陸、日本、香港等則作「冫」(俗稱兩點水)。這種程度的差異,理想是整併為一字為佳。否則,要是凡異體字都收進不同碼位裏,統一碼收錄的漢字就會過於臃腫,用戶搜尋時也會因異體問題而找不到想要的結果。

然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。例如,日本的JIS編碼同時收錄了「剣」與「劍」字,原本JIS文件裏這兩字可以並存。如果採用整合字集後,它們會變成同一字,使用的時就會造成困擾。而且,如果將多個不同地區字形合併,會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)。

於是,表意文字認同原則與原字集分離原則就應運而生。

表意文字認同原則,統一碼「只對(Character)而不對字形(Glyph)」編碼,會把同一字的不同字形(即異體字)合併。好像上述「次」字,統一碼會整併成一碼。又例如不同地區而有不同寫法的部首,如「(中國大陸規範、日本新字體)、(港臺舊字形、韓國、日本舊字體)、臺灣教育部)」、「(中國大陸規範、臺灣教育部)、(日本新字體)、(日本舊字體、韓國、港臺舊字形)」、「(中國大陸、港臺新字形)、(舊字形)」等,會合併編碼。這些部首的寫法差異就會交由字型處理。比如說,使用依中國大陸漢字標準《印刷通用漢字字形表》的字體(如中易宋體微軟雅黑體)便會出現「」;使用臺灣教育部標準字體(如微軟正黑體新版細明體,但舊版細明體[註 3])就會出現「」等字形,大大解決了因地區而異之部首寫法。

至於原字集分離原則是指,上述所列出之各種收字來源,若有任何字集同時收了兩種以上文字字形,中日韓統一表意文字也會同時收錄這些字。這樣一來,現行各種原有字集與統一碼漢字可一一對應。比如「房」字,各地字集都沒有分別編碼,就只編進一碼位,部首第一筆的寫法交由字型處理。然而,「戶」、「户」、「戸」這三字,在一些地區標準裏是分別編碼的,統一碼則以三碼位分別收錄它們。上述的「剣」與「劍」也一樣安放到不同碼位。

基於上述運作,統一碼能大幅減少收錄漢字字數,同時讓地區編碼過渡至統一碼時,字集裏的字元不會流失,但原字集分離原則破壞了統一碼「只對字而不對字形」編碼之原則,某些漢字獲得兩位或以上編碼,亦遭受不少批評。

後來的一些重複漢字會使用“兼容区”提供暂存编码,可用归一化normalization)步骤移除。一般的漢字輸入法,以及多數漢字字型,也不支援兼容區字元。

另外,原字集分離原則只適用於最初Unified Repertoire and Ordering(URO)的20902字,換言之,由「擴展區A」開始就不再適用。原因是個別地區提交了不少僅有十分輕微差異的字樣,比如台灣《異體字字典》裏的各種異體,要求統一碼分別編碼。然而,那些字樣所建基的地區編碼,並非該地區的通用編碼,例如是中文標準交換碼(台灣實際通行的編碼是Big5碼)。若統一碼全面採納,將會令統一碼對異體字的處理更混亂。

今天,变体序列(Variation Sequence)以及Adobe常用的CID字型等技術已容許在一粒統一碼編碼收錄和調用多於一款漢字字樣,原字集分離原則在今天已成爲過時技術的副產品。

起源不同原則 编辑

留意的是,可以整併的字只限異體字。如果有些漢字的音、義根本不一樣,是兩個不同的字,即使它們外形相近,寫法差異比另一些整併的字少,但仍不能合併。這規則稱爲起源不同原則(Noncognate Rule)。

擧例說:「土」和「士」雖然形似,卻是兩個不同的字,不可整併。然而,日本、韓國、大陸、香港等地的「」字,與臺灣教育部的「」字,兩者頂部分別是「土」和「士」,但它們音義全同,是同一字的異體,就可以整併。

其他起源不同的例子還有「朏」與「胐」(「月偏旁」與「肉偏旁」對立)、「胄」與「冑」(「肉底」與「冃底」對立),「柿」和「杮」(右方「市部件」與「巿部件」對立),「汨」和「汩」(右方「日部件」與「曰部件」對立),「陝」與「陜」(右旁「夾部件」與「㚒部件」對立)等。

然而,漢字中有「同形字」的現象,有兩個或以上讀音與字義,雖然字源不同,卻由同一字形表達出來。比如漢字「芸芸眾生」的「芸」,與日本漢字「藝」字的新字体「芸」,是同形字。要是這些同形字之字形確實相同而非相似(「芸」字的草頭雖然有三筆的「⺾」、四筆的「⺿」等不同寫法,但它們都指同一部件,沒有對立),就不會應用起源不同原則。

學界批評 编辑

中文文字學學界對統一碼的原字集分離原則有不少批評,尤其是它令同一異體部件時而分離,時而合併,引伸許多日常使用的問題。擧例說,「」和「」、「」和「」都在正常區域中作分離編碼,獲得兩碼位;「晴」、「靖」、「精」雖也獲兩碼位,但其中一位在兼容區,日常難以應用;「請」、「情」、「蜻」、「靜」更只有一碼位。或例如合併「」和「」、「」和「」而分離「」和「」作兩碼位。統一碼的做法沒有把有相同異體部件的字全都合併,也沒有把它們全都分離,結果字形經常不一致,或者使用者無法選擇他希望使用的字形[29]

其他漢字使用地區也有類似聲音。如「」和「」兩個偏旁,前者爲「戔」的大陸簡化字,後者爲「戔」的日本新字体,在「」和「」、「」和「」、「」和「」等組合裏,就整併起來。可是碰到「」和「」,卻不統合,分列U+685F與U+6808兩碼位。日本學者指這種情況爲統一碼的矛盾[30]

事實上,統一碼本身在「中日韓統一表意文字」不同區域裏也用了不一致的併分尺度,因此早期異體字時常獲配正常碼位,後來常常只有兼容區的暫存編碼,再後來則不時直接整併並交由变体选择符處理。若不修正或更改早期編碼,類似問題將會持續存在。

統漢字資料庫 编辑

統漢字資料庫(英語:Unihan)是統一碼聯盟所維護的資料庫文件,為統漢字的各漢字列出說明,內容有:

  • 統一碼與各國家、地區標準及各工業標準的對應。
  • 依據重要字典(如康熙字典)的排序索引。
  • 經過編碼的異體字
  • 漢字在各種語言中的發音。
  • 英文釋義。

資料庫以以下方式發佈:

  • 統一碼聯盟維護的網站版本[31]
  • 可供下載的txt文本文件(页面存档备份,存于互联网档案馆)。
  • 基於上述文件開發的第三方版本。
    • libUnihan項目開發了一套可供調用的c函式庫,和一套SQLite格式的Unihan數據庫[32]。前者以LGPL協議發布,後者以MIT協議發布。

批評 编辑

收字過少 编辑

合併異體字雖有助減少收錄字數,但研究學術時,如古籍、歷史及文字等,部份文獻卻要將字形不同之字同時並列。已合併的各字在這些文獻裡變得各有各意思。學者若使用統一碼,遇到這種情況,就要用不同電腦字型去顯示同一字碼,甚至要自行造字,或捨統一碼而用其他編碼。一來尋找、轉換電腦字型構成不便,二來有損統一碼記錄每一字之用意,三來不能以純文本交換,四來電腦字型或因授權條款之限,難以交換流傳。另外,這亦等於不能以統一碼準確記錄文獻,不利數碼文本。

不同字形之字合併後,若以字形爲本檢索,會產生混亂,難以檢索,如筆畫檢字,艸部之「艹頭」,中國、日本算作三畫,而傳統中文爲四畫,留有「艸」形者則爲六畫。統一碼同一字碼源於字形不同就有幾種筆畫,檢索混亂。即使檢出字,筆畫與顯示出來的字形也不相符。因此,批評者認爲,統一碼合併異體字並不可取。

收字過多 编辑

但是另一方面,統一碼收錄不少幽靈漢字,其出處難以找到,它們在實際生活也極少機會使用,有些甚至是错讹字,或者僅是某一人的名字用字,那人不見得是名人,甚至可能已去世,卻永久成爲標準裏的字元,佔用了一碼位。比如臺灣律師呂秋𧽚的「𧽚」字本應作「遠」,可是戶政人員誤聽他外公說的臺語,把「辵字邊」聽成「走馬邊」,外公又不敢更正。當事人長大後,才確認這是錯字[33],但這字已永久收進統一碼。又如香港增補字符集有許多人名用字,學者都指出乃屬訛寫,或是來歷不明的自創新字[34]。中文資訊界李祥在其專欄批評當局「解決不了增補字集中上千錯字、白字、生造字的讀音問題」,呼籲「不要把香港增補字符集與申請ISO強迫聯繫在一起」[35]。然而,這些人名訛字亦已經收進統一碼,構成了收字過多的爭議。

也有批评认为統一碼收入大量错讹字及写法高度相似的同一字的不同字形本身就不应该。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每字的各种写法全部编码,會浪费空间。完全无损地研究、记录文献只能通过查看原本或照相影印版来完成,把无损保存转嫁给编码是错误的。

現時統一碼把一些異體字分別編碼,帶來了檢索困難。只要寫法稍有不同,就无法检出,令使用戶检索字词时,必须反复检索其不同写法,造成重复劳动,对研究文献反而是种妨碍。例如統一碼将「兒」和「𠒇」字安放在不同的碼位裏。在检索文献时,檢索「兒」字時就找不到「雷莊𠒇」,檢索「𠒇」字時就找不到「雷莊兒」,反而造成困扰[36]

準則矛盾 编辑

統一碼對同一部件有分有合,原則不一,如「」和「」、「」和「」都分離編碼,但「」和「」就整併了;「」和「」、「」和「」皆整併作一碼,而「」和「」又分開,既令人混淆,亦令人無所適從。統一碼按原字集分離原則收字,只看各地區的既有編碼,不理會同一部件的文字學問題。可是用戶現實在電腦輸入文字時看到的是具體字形而不是編碼碼位,會讓人感到矛盾和困惑。

而且在統一碼「中日韓統一表意文字」的不同區域裏,官方也用了不一致的併分尺度。早期的異體字時常獲分配正常碼位;後來常常只有兼容區的暫存編碼,使兼容區的字元在輸入和顯示時經常碰到問題;再後來則不時直接整併並交由变体选择符處理。於是統一碼的編碼矛盾就更突顯。

漢字「〇」 编辑

」是漢字,《集韻》已有此字,則天文字亦有此字。《漢語大字典》《中華字海》《現代漢語詞典》都收錄了此字。但在統一碼放入CJK符號和標點區,等同於數字0,在搜索「〇」時會連帶搜索出數字0,使用時頗為不便(搜索漢字「一、二、三」不會搜索出數字1、2、3)。此外,很多程序限定了漢字的範圍為統一碼各漢字區,區外不視為漢字,「〇」不在漢字區就無法處理,造成不便。

已統一漢字 编辑

ISO 10646原則只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法(但只是读者的浏览器所渲染的字型,与浏览器的设置与设备安装的字体有关,未必代表該地區的標準寫法)。

例子
統一碼 中文 日文 韓文 越文
中国大陸 臺灣 香港
U+623F
U+6C49 [註 4]
U+6E2F
U+6F22
U+6FB3
U+76F4
U+7A97
U+89D2
U+8AA4
U+8BEF [註 4]
U+8D77
U+9AA8

註:不是所有網頁瀏覽器均可分辨全部HTML語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。

未統一漢字 编辑

有些字只是同一字在不同地區的寫法,理應統一,但因為原字集分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643有太多字形非常接近,按統一碼標準應該統一,但分開編碼的字。這些字只有正統的會編入正式字集(包括擴展區),不正統的編入「相容表意文字區」(Compatibility Ideographs)和位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

範例:

統一碼 統一碼 統一碼
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 U+7DD1
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

自上表發表後,WG2亦調查過其他漢字[37],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3

技術問題 编辑

擴展B區 编辑

擴展B區用了輔助平面來擺放漢字,Microsoft Office 2000或之前的版本等不少文書處理軟件都不能支援,即使電腦有擴展B區漢字字體也只會顯示兩格方格。

另外,擴展B區整理有缺陷,收錄了以下本來應與其他漢字統一的5字[38]

  • U+20457𠑗=U+34A8
  • U+2420E𤈎=U+3DB7
  • U+27144𧅄=U+8641
  • U+23515𣔕=U+204F2𠓲
  • U+249E9𤧩=U+249BC𤦼

而WG2 N1155[37]文件亦列出了152對可考慮統一的漢字。


注释 编辑

  1. ^ 這12字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字,但未有收錄在官方標準(C-、T-、J-、K-Source)。他們有獨立的形、音、義,即「獨一」(unique)[7]
  2. ^ 部分字符來自多於一個來源,所以下表提交量總數多於收錄總數97058字
  3. ^ 舊版“細明體”指Windows XP或以前版本之新細明體細明體,漢字寫法大體遵從傳承字形
  4. ^ 4.0 4.1 某些碼位原來只有個別地區的字,但其他地區為兼容國際標準,逐漸將所有碼位的字亦納入其國家標準。

参考文献 编辑

  1. ^ 無線流動裝置對《香港增補字符集》的支援 (PDF). [2022-12-19]. (原始内容 (PDF)于2020-02-02). 
  2. ^ 認識全字庫- 中文碼介紹. [2022-12-19]. (原始内容于2022-12-19). 
  3. ^ 中日韓統一漢字簡明速查字典. [2022-12-19]. (原始内容于2022-12-22). 
  4. ^ 漢字統合の問題 (2002-04-06). [2022-12-20]. (原始内容于2022-12-20). 
  5. ^ . [2022-12-19]. 原始内容存档于2021-08-26. 
  6. ^ Roadmap to the TIP. 統一碼聯盟. [2018-06-03]. (原始内容于2018-06-11). 
  7. ^ Unicode 6.1,第410-411頁 [1] (页面存档备份,存于互联网档案馆
  8. ^ [2]
  9. ^ [3]
  10. ^ [4]
  11. ^ 存档副本 (PDF). [2020-03-24]. (原始内容 (PDF)于2019-08-19). 
  12. ^ 存档副本 (PDF). [2020-03-24]. (原始内容 (PDF)于2019-05-15). 
  13. ^ 存档副本 (PDF). [2020-03-24]. (原始内容 (PDF)于2019-05-15). 
  14. ^ 存档副本 (PDF). [2020-03-24]. (原始内容 (PDF)于2019-05-15). 
  15. ^ 存档副本 (PDF). [2020-03-24]. (原始内容 (PDF)于2019-05-15). 
  16. ^ https://github.com/unicode-org/uk-source-ideographs/ (页面存档备份,存于互联网档案馆
  17. ^ Unihan_IRGSources.txt (from Unihan.zip). [2023-01-04]. (原始内容于2023-01-08). 
  18. ^ 日本的「仝」本來視為同上符號,編排於中日韩符号和标点區的 U+3004 Hanazono fonts. fonts.jp. [2010-04-19]. (原始内容于2010-04-12). ;但後來與正字區 U+4EDD 的字認同(統一)了,U+3004 改為日本標準符號
  19. ^ 收入中日韓相容表意文字
  20. ^ CJK Codes - CCCII and ANSI Z39.64-1989 (EACC). www.ibiblio.org. [2010-04-18]. (原始内容于2008-05-16). 
  21. ^ 存档副本 (PDF). [2011-09-09]. (原始内容 (PDF)于2012-05-09). 
  22. ^ 存档副本 (PDF). [2011-09-09]. (原始内容 (PDF)于2011-09-16). 
  23. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate (PDF). [2010-06-06]. (原始内容 (PDF)于2011-07-21). 
  24. ^ IRGN1319A1_MoveToCJK_D.pdf. (原始内容 (PDF)存档于2018-01-15). 
  25. ^ (PDF). [2015年12月12日]. (原始内容 (PDF)存档于2015年1月4日). 
  26. ^ 存档副本 (PDF). [2015-06-19]. (原始内容 (PDF)于2015-06-25). 
  27. ^ 存档副本 (PDF). [2020-03-11]. (原始内容 (PDF)于2020-03-24). 
  28. ^ 存档副本. [2020-03-11]. (原始内容于2020-03-11). 
  29. ^ 刻石錄:《Unicode摧殘正體字》 (页面存档备份,存于互联网档案馆)、刻石錄:《不知丹青,枉談漢字》 (页面存档备份,存于互联网档案馆
  30. ^ 安岡孝一:《Unicodeの矛盾》. [2019-02-08]. (原始内容于2018-08-02). 
  31. ^ 統漢字資料庫. 統一碼聯盟. [2009-05-04]. (原始内容于2009-05-04). 
  32. ^ libUnihan主頁. libUnihan. [2009-05-04]. (原始内容于2012-03-21). 
  33. ^ 呂秋遠:《呂秋「走袁」》 (页面存档备份,存于互联网档案馆),刊《立場新聞》。
  34. ^ 《政府通用字庫錯漏百出 收錄市民自創新字影響中文水平》,《太陽報》A6版,1999年10月13日
  35. ^ 李祥:《為了香港成為數碼城市……》. [2019-02-22]. (原始内容于2019-05-26). 
  36. ^ 散彈一號:《「𠒇」字係咩嚟?——港姐冠軍帶出嘅哲學問題》 (页面存档备份,存于互联网档案馆),刊《輔仁媒體》。
  37. ^ 37.0 37.1 IRGN1155 Possible Duplicates (.zip). [2019-06-22]. 
  38. ^ 存档副本 (PDF). [2008-02-17]. (原始内容 (PDF)于2007-06-12). 

外部連結 编辑

  • 統一碼裏中日韓表意文字和相關字符淺說(页面存档备份,存于互联网档案馆
  • CJK-CODE(页面存档备份,存于互联网档案馆
  • UTF-8 and Unicode FAQ for Unix/Linux(页面存档备份,存于互联网档案馆
  • 中華民國教育部異體字字典附錄-中日韓共用漢字表(页面存档备份,存于互联网档案馆
  • 查「Unicode 編碼」或「教育部異體字字典字號」(页面存档备份,存于互联网档案馆(CBETA中華電子佛典協會)
統一碼
ISO表意文字工作組

参见 编辑

中日韓統一表意文字, unihan, 重定向至此, 关于其他用法, 请见, unihan, 消歧义, 此條目介紹的是, 关于unicode中, 中日韩统一表意文字区块, 的完整字符列表, 请见, 中日韩统一表意文字列表, 注意, 本页有unihan新版汉字, 這些字符可能會错误显示, 詳见unicode扩展汉字, 本页面有越南语的喃字, 操作系统及浏览器須支持特殊字母与符号才能正確显示为喃字, 否则可能變成乱码, 问号, 空格等其它符号, 英語, unified, ideographs, 或譯中日韓等同表意文字, . Unihan 重定向至此 关于其他用法 请见 Unihan 消歧义 此條目介紹的是中日韓統一表意文字 关于Unicode中 中日韩统一表意文字区块 的完整字符列表 请见 中日韩统一表意文字列表 注意 本页有Unihan新版汉字 這些字符可能會错误显示 詳见Unicode扩展汉字 本页面有越南语的喃字 操作系统及浏览器須支持特殊字母与符号才能正確显示为喃字 否则可能變成乱码 问号 空格等其它符号 中日韓統一表意文字 英語 CJK Unified Ideographs 或譯中日韓等同表意文字 1 中日韓認同表意文字 2 中日韓統一漢字集 3 中日韓統合漢字 4 又稱作統漢碼 統一漢字集 英語 Unihan 建立目的是將中 日 韓 越 壯 琉球文起源相同 本義相通 形狀一樣或稍異的表意文字 在ISO 10646及統一碼標準賦予相同編碼 這作業活動在統一碼標準稱為漢字等同 5 英語 Han unification 或譯為漢字認同 漢字統一 漢字統合 整理出來的中日韓統一表意文字 由統一碼聯盟建置的Unihan資料庫維護 中日韓統一漢字集所含括的對象為漢字及其衍生出來的語素文字 包括繁體字 簡化字 日本漢字 漢字 かんじ 韓國漢字 漢字 한자 琉球汉字 漢字 ハンジ 越南的喃字 𡨸喃 Chữ Nom 與儒字 𡨸儒 Chữ Nho 方塊壯字 𭨡 倱 sawgun 目录 1 歷史 2 版本 3 成員機構 4 收字來源 4 1 总计 4 2 最初期統一漢字 4 3 擴展A區 4 4 擴展B區 4 5 統一碼4 1漢字 4 6 統一碼5 1漢字 4 7 擴展C區 4 8 擴展D區 4 9 擴展E區 4 10 急用漢字 4 11 擴展F區 4 12 擴展G區 4 13 擴展H區 4 14 扩展I区 5 認同原則與原字集分離原則 5 1 起源不同原則 5 2 學界批評 6 統漢字資料庫 7 批評 7 1 收字過少 7 2 收字過多 7 3 準則矛盾 7 4 漢字 8 已統一漢字 9 未統一漢字 10 技術問題 10 1 擴展B區 11 注释 12 参考文献 13 外部連結 14 参见歷史 编辑1978年 日本產業規格制訂了基於ISO IEC 2022的JIS C 6226 為全世界最早的漢字編碼 包含6349漢字 1980年代 臺灣 CCCII CNS 11643 中國大陸 GB 2312 韓國 KS C 5601 開始制訂了各自的編碼規範 這些規範彼此之間並無連繫 若要在一份文件中同時使用 則要以跳脫字元的方式來交換 1980年 日本的國立國會圖書館的高橋德太郎以書目學的觀點指出 統一的東亞漢字編碼系統有必要 同年 臺灣制定了三位元組的中文資訊交換碼 這是第一款期望可以一致處理中國 日本 韓國漢字的編碼 之後 美國的國會圖書館採用了此標準 並另外命名為東亞編碼字符 East Asia Coded Character EACC ANSI NISO Z39 64 1984年 ISO的文字編碼委員會 ISO TC 97 SC2 決議制訂出一套編碼規格 ISO 10646 是以交換文字集的方式來統一處理世界的文字 並成立了工作小組 ISO TC 97 SC 2 WG 2 這編碼一開始的構想是採用16位元 而對於日本及中國等國的漢字編碼則原封不動地加入 但若如此 中國當時所制訂的編碼都無法加入 因而反對 並在1989年提出各國漢字統合集合 Han Character Collection HCC 的構想 1990年完成了ISO 10646的初版草案 DIS 10646 漢字用32位元表示 並將各國的漢字編碼原封不動加入 但中國認為 若各國各自為漢字編碼 將不利於統一處理漢字 因而反對 為了日後能順利討論漢字編碼及處理有關方針 並呼籲WG 2特別設置了中日韓聯合研究小組 CJK JRG Joint Research Group 為表意文字小組的前身 以持續討論 另一方面 1987年 全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼 1989年發表了統一碼概要 基本為16位元 於是 中 日 韓的漢字統合了 基本方針以16位元處理所有文字 1990年完成了基於此方針的最終草案 1991年1月 大致同意此方案的企業成立了統一碼聯盟 中 日 韓類似的漢字使用約二萬多字 為了未來擴充 保留了三萬漢字以供其它用途 1991年 各國希望能以一致的方式處理文字 否決了ISO IEC 10646的初版草案 基於中國與統一碼聯盟的提議 ISO 10646和統一碼成立了中日韓聯合研究小組 中日韓聯合研究小組將基於各國的漢字編碼 獨自訂定規範 制作ISO 10646和統一碼的統一漢字編碼 年尾完成了Unified Repertoire and Ordering URO 1992年 URO加入ISO 10646的第二版 但發現一些缺失 之後修正 1993年5月正式制訂最初的 中日韓統一表意文字 位於U 4E00 U 9FFF 共20902字 不過漢字 U 3007 誤當數字放入符號和標點區 一個月後制訂了統一碼1 1 1999年 依據ISO IEC 10646的第17修正案 Amendment 17 訂定扩展區A 於U 3400 U 4DFF加入6582漢字 2001年 依據ISO IEC 10646 2新增擴充區B 於U 20000 U 2A6FF有42711漢字 但短時間內增加大量漢字 產生許多重複字形 2005年 依據ISO IEC 10646 2003的第一修正案 Amendment 1 基本多文種平面增加U 9FA6 U 9FBB 共22漢字 2009年 統一碼5 2扩展區C增加U 2A700 U 2B734 基本多文種平面增加U 9FC4 U 9FCB 2010年 統一碼6 0扩展區D增加U 2B740 U 2B81F 2012年 統一碼7 0基本多文種平面增加1漢字 U 9FCC 2015年 統一碼8 0扩展區E增加U 2B820 U 2CEAF 基本多文種平面增加U 9FCD U 9FD5 2017年 统一码10 0扩展區F增加U 2CEB0 U 2EBEF 基本多文種平面增加U 9FD6 U 9FEA 2018年 統一碼11 0基本多文種平面末尾增加5漢字 U 9FEB U 9FEF 2020年 統一碼13 0增加4969漢字 其中4939字位於第三平面的擴展區G 碼位爲U 30000 U 3134A 同時 亦在基本區增加13字 U 9FF0 U 9FFC 在擴展A區增加10字 U 4DB6 U 4DBF 在擴展B區增加7字 U 2A6D7 U 2A6DD 2021年 統一碼14 0基本多文種平面末尾增加3漢字 U 9FFC U 9FFF 同時 亦在擴展B區增加2字 U 2A6DE U 2A6DF 在擴展C區增加4字 U 2B735 U 2B738 2022年 統一碼15 0增加4193漢字 其中4192字位於第三平面的擴展區H 碼位爲U 31350 U 323AF 同時 亦在擴展C區增加7字 U 2B739 2023年 統一碼15 1增加622漢字 位於第二平面的擴展區I 碼位爲U 2EBF0 U 2EE5D 另外 第三平面的U 38000至U 3AB9F預計放置篆书 相關提案已經提交 按路線圖 該平面還會收錄金文 簡帛文 陶文 鳥蟲書等 6 版本 编辑ISO 10646版本 統一碼版本 新增 置放平面 字數 累計 字數1993 1 0 中日韓統一表意文字 U 4E00 U 9FA5 基本多文種平面 20902 209151漢字 U 3007 於中日韓符號和標點區 基本多文種平面 1在 中日韓相容表意文字 中但實則獨一的漢字 U FA0E﨎 U FA0F﨏 U FA11﨑 U FA13﨓 U FA14﨔 U FA1F﨟 U FA21﨡 U FA23﨣 U FA24﨤 U FA27﨧 U FA28﨨 U FA29﨩 註 1 基本多文種平面 122000 3 0 中日韓統一表意文字擴展區A U 3400 U 4DB5 基本多文種平面 6582 274972001 3 1 中日韓統一表意文字擴展區B U 20000 U 2A6D6 第二辅助平面 42711 702082003第一修訂版 4 1 HKSCS 2004未加入ISO 10646的漢字 U 9FA6 U 9FB3 龦龧龨龩龪龫龬龭龮龯龰龱龲龳 和GB 18030 2000未加入ISO 10646的印刷業常用偏旁和字形部件 U 9FB4 U 9FBB 龴龵龶龷龸龹龺龻 基本多文種平面 22 702302003第四修訂版 5 1 7日語漢字 8 U 9FBC U 9FC2 龼龽龾龿鿀鿁鿂 U 4039䀹拆分為U 4039䀹和U 9FC3鿃 9 基本多文種平面 8 702382003第五修訂版 5 2 中日韓統一表意文字擴展區C U 2A700 U 2B734 第二辅助平面 4149 743952003第六修訂版 2日語用漢字 ARIB 47 95 U 9FC4鿄 U 9FC5鿅 1新增漢字 ARIB 93 U 9FC6鿆 HKSCS 2004推出後新增的5香港漢字 10 U 9FC7 U 9FCB 鿇鿈鿉鿊鿋 基本多文種平面 82010 6 0 中日韓統一表意文字擴展區D U 2B740 U 2B81D 第二輔助平面 222 746172012 6 1 1漢字 U 9FCC鿌 基本多文種平面 1 746182015 8 0 中日韓統一表意文字擴展區E U 2B820 U 2CEA1 第二輔助平面 5762 80389 急用漢字 通用规范汉字表 餘下未收入的3字 U 9FCD U 9FCF 鿍鿎鿏 1个从U 4CA4 䲤 分离出来的字U 9FD0 鿐 5个其他图书用字及化学元素用字 U 9FD1 U 9FD5 鿑鿒鿓鿔鿕 基本多文種平面 92017 10 0 中日韓統一表意文字擴展區F U 2CEB0 U 2EBE0 第二輔助平面 7473 8788321漢字 U 9FD6 U 9FEA 鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪 基本多文種平面 212018 11 0 5漢字 U 9FEB U 9FEF 鿫鿬鿭鿮鿯 前三字是新命名的化學元素用字 後兩字來自日本 基本多文種平面 5 878882020 13 0 中日韓統一表意文字擴展區G U 30000 U 3134A 第三輔助平面 4939 92857急用科學與技術用字 11 U 9FF0 U 9FFC 鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼 10個需分離的漢字 12 13 14 U 4DB6 U 4DBF 䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿 基本多文種平面 23崑曲工尺譜用字 15 U 2A6D7 U 2A6DD 𪛗𪛘𪛙𪛚𪛛𪛜𪛝 第二辅助平面 72021 14 0 3漢字 U 9FFD U 9FFF 基本多文種平面 3 928662漢字 U 2A6DE U 2A6DF 第二辅助平面 24漢字 U 2B735 U 2B738 第二辅助平面 42022 15 0 中日韓統一表意文字擴展區H U 31350 U323AF 第三輔助平面 4192 970581漢字 U 2B739 第二辅助平面 2成員機構 编辑統一碼協會 nbsp 中华人民共和国 nbsp 香港 政府資訊科技總監辦公室轄下中文界面諮詢委員會 nbsp 澳門 資訊系統中文編碼工作小組 由行政公職局協調 nbsp 中華民國 台北市電腦商業同業公會 nbsp 日本 nbsp 朝鲜 nbsp 大韓民國 nbsp 越南 nbsp 马来西亚 2008年11月第31次IRG會議加入 nbsp 英国 16 大藏經文本數據庫委員會 大蔵経テキストデータベース委員会 SAT 收字來源 编辑总计 编辑 中日韩统一表意文字来源 註 2 提交源 类别 提交量 nbsp 中国大陆 国标源 65941 nbsp 香港 17654 nbsp 澳門 344 nbsp 臺灣 58597 nbsp 日本 16148 nbsp 韩国 20739 nbsp 朝鲜 23795 nbsp 越南 13278 nbsp 英国 2503大藏經文本數據庫委員會 3455統一碼協會 1019总计 223653最初期統一漢字 编辑 最初期共20902統一漢字 範圍為U 4E00 U 9FA5 收字來源包括以下字集 17 類別 來源代碼 名稱 字數中國大陸國標源 G G0 GB 2312 80 6763G1 GB 12345 90 2352 含58香港字和92吏讀字 不包括和GB 2312重複的字 G3 GB 7589 87繁體版本 7237G5 GB 7590 87繁體版本 7039G7 現代漢語通用字表 42 G0 1 3 5 8未包括的字 G8 GB 8565 2 89 290 G0 1 3 5未包括的字 臺灣源 T T1 CNS 11643 1986第一字面 5401 9計量用漢字T2 CNS 11643 1986第二字面 7650TE CNS 11643 1986第十四字面 6319 239中文資訊交換碼特字 10全錄字符集 Xerox Character Code Standard XCCS 特字日本源 J J0 JIS X 0208 90 6335 非漢字1個 仝 18 J1 JIS X 0212 90 5801韓國源 K K0 KS C 5601 87 4888 含268重見字 19 K1 KS C 5657 91 2856委員會源 U KS C 5601 1987 當中重複的漢字 美國國會圖書館之東亞字元編碼 East Asia Character Code 簡稱EACC 標準號ANSI Z39 64 1989 20 大五碼中文資訊交換碼第一字面GB 12052 89 漢字部分 JEF 富士通標準 中國大陸電報碼臺灣電報碼 CCDC 全錄中文編碼人名用漢字准用字體表 人名用漢字許容字体表 日本 IBM選取的日本和韓國表意文字其中 統一碼技術委員會源 U源 指 並非由表意文字小組所遞交的參考字集 而是委員會額外遞交作參考的字集標準 並且此來源的字集不適用原字集分離原則 見稍後 擴展A區 编辑 擴展A區包含有6592漢字 位置在U 3400 U 4DBF 這6千多漢字分別從以下字典或字集取得 類別 來源代碼 名稱 字數中國大陸国标源 G G KX 康熙字典 5357 獨有1892字 G HZ 漢語大字典 5888 獨有339字 G3 GB 7589 87繁体版本 2391G5 GB 7590 87繁体版本 1226G7 現代漢語通用字表 120GS 新加坡漢字 226臺灣源 T T3 CNS 11643 1992第三字面 原為CNS 11643 1986第十四字面 新加入字符 2178T4 CNS 11643 1992第四字面 2917T5 CNS 11643 1992第五字面 395T6 CNS 11643 1992第六字面 197T7 CNS 11643 1992第七字面 133TF CNS 11643 1992第十五字面 86日本源 J JA 日本資訊科技零售商統一當代表意文字 1993 574韓國源 K K2 PKS C 5700 1 1994K3 PKS C 5700 2 1994 1834越南源 V V0 TCVN 5773 1993 138V1 TCVN 6056 1995擴展B區 编辑 擴展B區有42717漢字 位置在U 20000 U 2A6DD 根據IRG N777號文件 页面存档备份 存于互联网档案馆 這四萬多漢字分別從以下字典或字集中取得 類別 來源代碼 名稱 字數中國大陸国标源 G G KX 康熙字典 18486 包括在補遺篇出現的一字 G HZ 漢語大字典 28914G CY 辭源 66G CH 辭海 247G HC 漢語大詞典 553G BK 中國大百科全書 86G FZ 北大方正排版系统 65G 4K 四庫全書 522香港源 H H 香港增補字符集 HKSCS 1081臺灣源 T T4 CNS 11643 1992第四字面 3408T5 CNS 11643 1992第五字面 8111T6 CNS 11643 1992第六字面 5934T7 CNS 11643 1992第七字面 6299TF CNS 11643 1992第十五字面 6401日本源 J J3 JIS X 0213 2000 level 3 25J3A JIS X 0213 2004 level 3 1J4 JIS X 0213 2000 level 4 277韓國源 K K4 PKS 5700 3 1998 166朝鮮源 KP KP0 KPS 9566 97KP1 KPS 10721 2000 5766越南源 V V2 VHN 01 1998 2290V3 VHN 02 1998 425這些漢字有不少重複 經整理後實際只有42711漢字 另外 U 2F800 U 2FA1D放了來自臺灣的542兼容漢字 統一碼4 1漢字 编辑 為使統一碼向下兼容GB 18030和香港增補字符集 HKSCS 的所有漢字 而擴展C區又遲遲未能出籠 4 1版引進了香港增補字符集的14用字和GB 18030的8用字 該22字編於U 9FA6 U 9FBB 另外 U FA70 U FAD9放了來自北韓的106兼容漢字 統一碼5 1漢字 编辑 2008年4月推出的統一碼5 1版收錄7個由日本Adobe公司遞交的日語漢字 U 9FBC U 9FC2 21 和鿃 大字加兩個入字 就如陝西省的陝字換上目字旁 U 9FC3 本來統一碼3 0收錄了目字旁加夾 大字加兩個人字 字的 䀹 U 4039 目字旁加㚒字的字 與 䀹 無論意義和發音均不同 故魏安 Andrew West 和井作恆 John H Jenkins 申請追加此字 22 擴展C區 编辑 於2009年10月發布的統一碼5 2涵蓋了擴展C區 共收錄4149漢字 包括來自中國大陆 澳門 臺灣 日本 越南等尚未編碼的漢字 在U 2A700 U 2B734 這四千多漢字分別從以下字典或字集取得 類別 來源代碼 名稱 字數中國大陸国标源 G G BK 中國大百科全書 74G FZ 北京大学方正排版系统 1G HZ 漢語大字典 1G HC 漢語大詞典 14G GH 古代漢語詞典 50G GJZ 商務印書館用字 61G XC 現代漢語詞典 25G CH 辭海 264G KX 康熙字典 及補遺 6G CYY 中國測繪科學研究院用字 55G ZFY 漢語方言大辭典 202G ZJW 殷周金文集成引得 366臺灣源 T TC CNS 11643 1992第12字面 634TD CNS 11643 1992第13字面 767TE CNS 11643 1992第14字面 350澳門源 MAC 澳門資訊系統字集 Colectanea dos Caracteres Chineses dos Sistemas Informaticos de Macau 16日本源 J JK 日本國字集 Japanese KOKUJI Collection 367韓國源 K K5 韓國表意文字小組漢字集第五版 2001 Korean IRG Hanja Character Set 5th Edition 2001 404 當中主要包含古代字例 朝鮮源 KP KP1 KPS 10721 2003 5357 獨有1892字 越南源 V V4 喃字詞典 Từ điển chữ Nom 阮光紅 Nguyễn Quang Hồng 2006 岱喃字字典 Từ điển chữ Nom Tay Hoang Triều An 2006 沔南喃字榜查 Bảng tra chữ Nom miền Nam Vũ Văn Kinh 1994 委員會源 U ABC Chinese English Dictionary 德范克 John DeFrancis等 第二版 1998 火奴魯魯 夏威夷大學出版社 耶穌基督後期聖徒教會香港分會用字Mathews Chinese English Dictionary Robert H Mathews 1975 劍橋 哈佛大學出版社 宋本 廣韻 中國鳥類系統檢索 鄭作新等 北京 科學出版社 2000 段玉裁 說文解字注 擴展D區 编辑 擴展D區包含的都是所謂的 急用漢字 合共222新漢字 於2010下半年發布的統一碼6 0中 編碼範圍為U 2B740 U 2B81F 實際有字元為U 2B740 U 2B81D 擴展D區原本計劃放置擴展C區未收錄的16000多漢字 但在2007年5月 臺灣撤销了6545個第二部分字集內私用漢字 不再使用字 原因是那些人名用字的擁有人已去世或移居外地 23 此後擴展D區縮減到大約10000字左右 24 由於各種阻礙 協議先把數量較少 又急切要收錄的漢字提交出來 就是 急用漢字 以便和統一碼6 0 0版一起發表 提出的急用漢字只有二百二十二字 本來有二百二十三字 但日本撤回其中一字 現在文字小組把第二部分字集延後到擴充E區 類別 來源代碼 名稱 字數中國大陸国标源 G G CH 辭海 1G IDC 公安部身份證系統人名和地名用字 31G XC 现代汉语词典 4G ZH 中华字海 39臺灣源 T TB CNS 11643 2007第11平面24字 教育部閩客方言用字 24日本源 J JH 通用電子情報交換環境整備計劃 汎用電子情報交換環境整備プログラム 日本經濟產業省提出的人名和地名用字 108委員會源 U Adobe Japan1 5和Adobe CNS1 5字體裏的異體字 15擴展E區 编辑 扩展E区亦在2015年6月17日的統一碼8 0中发布 放置于编码范围U 2B820 U 2CEAF 扩展E区本应包含扩展D区未收录的10000多个汉字 但在2008年11月 中国大陆以 难以逐个找证据 为理由 撤销了3215汉字 25 这些汉字主要用于地名 人名 姓氏 亦有数百个 中国大百科全书 中的文字 这是继台湾撤销6545字之后的又一次大规模撤销 之后又经过长时间的检查处理 E区最终定稿 共5762字 26 这些汉字来源如下 类别 来源代码 名称 字数中國大陸国标源 G G BK 中国大百科全书 15G CH 辞海 112G CY 辞源 3G CYY 中国测绘科学院用字 地名用字 98G DZ 地質出版社用字 1G GH 古代汉语词典 176G HC 汉语大词典 7G IDC 公安部身份证系统人名和地名用字 36G JZ 商务印书馆用字 147G KX 康熙字典 22G RM 人民日報用字 3G WZ 漢語大詞典出版社用字 12G XC 现代汉语词典 57G XH 新華字典 4G ZFY 汉语方言大辞典 712G ZJW 殷周金文集成引得 1410臺灣源 T TC CNS 11643 1992第12平面323字 台湾人名用字 323TD CNS 11643 1992第13平面595字 台湾人名用字 595TE CNS 11643 1992第14平面339字 台湾人名用字 339日本源 J JK 日本国字集 415澳門源 M MAC 澳門資訊系統字集 48委員會源 U UTC 从各处收集到的未收录汉字 227越南源 V V4 喃字詞典 Từ điển chữ Nom 阮光紅 Nguyễn Quang Hồng 2006 1028 岱喃字字典 Từ điển chữ Nom Tay Hoang Triều An 2006 沔南喃字榜查 Bảng tra chữ Nom miền Nam Vũ Văn Kinh 1994 急用漢字 编辑 急用漢字 是擴展E區整理後期 各地新發現並急於使用 又等不及放入擴展F區的字 和擴展E區一起收入統一碼8 0 位置在U 9FCD U 9FD5 當中中國大陸在此處申請收入三字 連同擴展E區的字 通用規範漢字表的8105字至此全部收入 擴展F區 编辑 扩展F区在2017年6月20日的統一碼10 0发布 编码范围为U 2CEB0 U 2EBEF 扩展F区来源于新提交的一批汉字 主要包括一千多方块壮字及数千个佛经 古籍中的用字以及日本户籍用字 共有7473字 这些汉字的来源如下 类别 来源代码 名称 字数中國大陸国标源 G G CY 辞源 122G FC 现代汉语规范词典 27G IDC 公安部身份证用字 1G LGYJ 壮族嘹歌研究 1G OCD 牛津英汉汉英词典 2G PGLG 壮族民歌文化丛书 平果嘹歌 70G XHZ 新华大字典 51G Z 古壮字字典 995G ZJW 殷周金文集成引得 33G ZYS 壮族人民的文化遗产 方块壮字 中国民族古文字研究 2日本源 J JMJ 日本文字信息基础工程 1645韩国源 K KC 韩国历史情报统合系统 1793澳門源 M MAC 澳門資訊系統字集 22大藏经研究组 SAT USAT 大正新修大藏经 SAT版 2884委員會源 U UTC 从各处收集到的未收录汉字 1擴展G區 编辑 於2020年3月10日公佈的統一碼13 0中在第三輔助平面收錄擴展區G的4939漢字 碼位為U 30000 U 3134A 27 28 这些汉字的来源如下 部分字符來自多於一處來源 所以下表總數多於收錄總數4939字 类别 来源代码 名称 字数中國大陸国标源 G G HZR 汉语大字典 第二版 878G PGLG 壮族民歌文化丛书 平果嘹歌 13G Z 古壮字字典 1191韩国源 K KC 韩国历史情报统合系统 한국 역사 정보 통합 시스템 428臺灣源 T T13 CNS 11643第19字面 將設立的新平面 347TB CNS 11643第11字面 3TC CNS 11643第12字面 2TD CNS 11643第13字面 1英國源 UK UK IRG N2107R2 1566大藏经研究组 SAT USAT 大正新修大藏经 SAT版 329委員會源 U UTC 从各处收集到的未收录汉字 239擴展H區 编辑 2022年9月13日公佈的統一碼15 0在第三輔助平面收錄擴展區H的4192漢字 碼位為U 31350 U 323AF 这些汉字的来源如下 部分字符來自多於一處來源 下表總數多於收錄總數4192字 类别 来源代码 名称 字数中國大陸国标源 G GDM 中华人民共和国公安部治安管理局地名汉字 128GHC 漢語大詞典 27GKJ 全国科学技术名词审定委员会术语定名用字 30GLGYJ 壮族嘹歌研究 11GPGLG 壮族民歌文化丛书 平果嘹歌 14GXM 217GZ 古壮字字典 285GZA 1 生生不息的传承 孝与壮族行孝歌之研究 6GZA 2 壮族伦理道德长诗传扬歌译注 38GZA 3 壮族民歌古籍集成 情歌 一 嘹歌 2GZA 4 壮族民歌古籍集成 情歌 二 欢𭪤 11GZA 6 中国壮族谚语 59GZA 7 远古的追忆 壮族创世神话古歌研究 1韩国源 K KC 韩国历史情报统合系统 512朝鲜源 KP KP1 KPS 10721 2000 1臺灣源 T T12 TCA CNS 11643第十八平面 7T13 TCA CNS 11643第十九平面 696T4 CNS 11643 1992第四平面 1T6 CNS 11643 1992第六平面 1TB CNS 11643 2007第十一平面 4TC CNS 11643 2007第十二平面 3TE CNS 11643 2007第十四平面 2英國源 UK UK IRG N2232R 917越南源 V V0 TCVN 5773 1193 6V4 汉喃编码字汇 74VN 越南横向扩展用字 851大藏经研究组 SAT 大藏经文字数据库 241委員會源 U UTC 161扩展I区 编辑 2023年9月12日公布的统一码15 1在第二辅助平面收录扩展区I的622个汉字 码位为U 2EBF0 U 2EE5F 这些汉字的来源如下 类别 来源代码 名称 字数中國大陸国标源 G GIDC23 公安部身份证系统人名和地名用字2023版 622認同原則與原字集分離原則 编辑 nbsp 次 字的台灣教育部字形 大陸规范汉字 韓國的漢字 越南的漢字 日本的漢字 表意文字認同原則 Han Unification Rule 又稱表意文字統合原則 與原字集分離原則 Source Separation Rule 又稱來源字集分離原則 原規格分離原則 是兩項對立原則 它們是統一碼整理中日韓統一表意文字的基礎 東亞各國字形多有微妙的差異 如 房 字的第一筆 韓國傳統漢字字形 臺灣教育部標準字體作撇 房 香港教育參考字形 中國大陆規範作點 房 日本標準作橫 房 又如 次 字的左旁 韓國採用傳統字形 首筆爲橫 次筆爲挑 臺灣教育部作兩橫 大陸 日本 香港等則作 冫 俗稱兩點水 這種程度的差異 理想是整併為一字為佳 否則 要是凡異體字都收進不同碼位裏 統一碼收錄的漢字就會過於臃腫 用戶搜尋時也會因異體問題而找不到想要的結果 然而 從之前各種受挫之文字整併計劃的經驗得知 整合字集與現行通用字集 Big5或國標碼 等無法一一對應 是推行整合字集的最大阻礙 例如 日本的JIS編碼同時收錄了 剣 與 劍 字 原本JIS文件裏這兩字可以並存 如果採用整合字集後 它們會變成同一字 使用的時就會造成困擾 而且 如果將多個不同地區字形合併 會影響閱讀者 令使用者不習慣並非以往所見字形 更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形 或地區性的異體字 於是 表意文字認同原則與原字集分離原則就應運而生 按表意文字認同原則 統一碼 只對字 Character 而不對字形 Glyph 編碼 會把同一字的不同字形 即異體字 合併 好像上述 次 字 統一碼會整併成一碼 又例如不同地區而有不同寫法的部首 如 中國大陸規範 日本新字體 港臺舊字形 韓國 日本舊字體 臺灣教育部 礻 中國大陸規範 臺灣教育部 礻 日本新字體 日本舊字體 韓國 港臺舊字形 爫 中國大陸 港臺新字形 舊字形 等 會合併編碼 這些部首的寫法差異就會交由字型處理 比如說 使用依中國大陸漢字標準 印刷通用漢字字形表 的字體 如中易宋體 微軟雅黑體 便會出現 爫 使用臺灣教育部標準字體 如微軟正黑體或新版細明體 但非舊版細明體 註 3 就會出現 爫 等字形 大大解決了因地區而異之部首寫法 至於原字集分離原則是指 上述所列出之各種收字來源 若有任何字集同時收了兩種以上文字字形 中日韓統一表意文字也會同時收錄這些字 這樣一來 現行各種原有字集與統一碼漢字可一一對應 比如 房 字 各地字集都沒有分別編碼 就只編進一碼位 部首第一筆的寫法交由字型處理 然而 戶 户 戸 這三字 在一些地區標準裏是分別編碼的 統一碼則以三碼位分別收錄它們 上述的 剣 與 劍 也一樣安放到不同碼位 基於上述運作 統一碼能大幅減少收錄漢字字數 同時讓地區編碼過渡至統一碼時 字集裏的字元不會流失 但原字集分離原則破壞了統一碼 只對字而不對字形 編碼之原則 某些漢字獲得兩位或以上編碼 亦遭受不少批評 後來的一些重複漢字會使用 兼容区 提供暂存编码 可用归一化 normalization 步骤移除 一般的漢字輸入法 以及多數漢字字型 也不支援兼容區字元 另外 原字集分離原則只適用於最初Unified Repertoire and Ordering URO 的20902字 換言之 由 擴展區A 開始就不再適用 原因是個別地區提交了不少僅有十分輕微差異的字樣 比如台灣 異體字字典 裏的各種異體 要求統一碼分別編碼 然而 那些字樣所建基的地區編碼 並非該地區的通用編碼 例如是中文標準交換碼 台灣實際通行的編碼是Big5碼 若統一碼全面採納 將會令統一碼對異體字的處理更混亂 今天 变体序列 Variation Sequence 以及Adobe常用的CID字型等技術已容許在一粒統一碼編碼收錄和調用多於一款漢字字樣 原字集分離原則在今天已成爲過時技術的副產品 起源不同原則 编辑 留意的是 可以整併的字只限異體字 如果有些漢字的音 義根本不一樣 是兩個不同的字 即使它們外形相近 寫法差異比另一些整併的字少 但仍不能合併 這規則稱爲起源不同原則 Noncognate Rule 擧例說 土 和 士 雖然形似 卻是兩個不同的字 不可整併 然而 日本 韓國 大陸 香港等地的 寺 字 與臺灣教育部的 寺 字 兩者頂部分別是 土 和 士 但它們音義全同 是同一字的異體 就可以整併 其他起源不同的例子還有 朏 與 胐 月偏旁 與 肉偏旁 對立 胄 與 冑 肉底 與 冃底 對立 柿 和 杮 右方 市部件 與 巿部件 對立 汨 和 汩 右方 日部件 與 曰部件 對立 陝 與 陜 右旁 夾部件 與 㚒部件 對立 等 然而 漢字中有 同形字 的現象 有兩個或以上讀音與字義 雖然字源不同 卻由同一字形表達出來 比如漢字 芸芸眾生 的 芸 與日本漢字 藝 字的新字体 芸 是同形字 要是這些同形字之字形確實相同而非相似 芸 字的草頭雖然有三筆的 四筆的 等不同寫法 但它們都指同一部件 沒有對立 就不會應用起源不同原則 學界批評 编辑 中文文字學學界對統一碼的原字集分離原則有不少批評 尤其是它令同一異體部件時而分離 時而合併 引伸許多日常使用的問題 擧例說 青 和 靑 淸 和 清 都在正常區域中作分離編碼 獲得兩碼位 晴 靖 精 雖也獲兩碼位 但其中一位在兼容區 日常難以應用 請 情 蜻 靜 更只有一碼位 或例如合併 直 和 直 植 和 植 而分離 値 和 值 作兩碼位 統一碼的做法沒有把有相同異體部件的字全都合併 也沒有把它們全都分離 結果字形經常不一致 或者使用者無法選擇他希望使用的字形 29 其他漢字使用地區也有類似聲音 如 戋 和 㦮 兩個偏旁 前者爲 戔 的大陸簡化字 後者爲 戔 的日本新字体 在 残 和 残 浅 和 浅 践 和 践 等組合裏 就整併起來 可是碰到 桟 和 栈 卻不統合 分列U 685F與U 6808兩碼位 日本學者指這種情況爲統一碼的矛盾 30 事實上 統一碼本身在 中日韓統一表意文字 不同區域裏也用了不一致的併分尺度 因此早期異體字時常獲配正常碼位 後來常常只有兼容區的暫存編碼 再後來則不時直接整併並交由变体选择符處理 若不修正或更改早期編碼 類似問題將會持續存在 統漢字資料庫 编辑統漢字資料庫 英語 Unihan 是統一碼聯盟所維護的資料庫文件 為統漢字的各漢字列出說明 內容有 統一碼與各國家 地區標準及各工業標準的對應 依據重要字典 如康熙字典 的排序索引 經過編碼的異體字 漢字在各種語言中的發音 英文釋義 資料庫以以下方式發佈 統一碼聯盟維護的網站版本 31 可供下載的txt文本文件 页面存档备份 存于互联网档案馆 基於上述文件開發的第三方版本 libUnihan項目開發了一套可供調用的c函式庫 和一套SQLite格式的Unihan數據庫 32 前者以LGPL協議發布 後者以MIT協議發布 批評 编辑收字過少 编辑 合併異體字雖有助減少收錄字數 但研究學術時 如古籍 歷史及文字等 部份文獻卻要將字形不同之字同時並列 已合併的各字在這些文獻裡變得各有各意思 學者若使用統一碼 遇到這種情況 就要用不同電腦字型去顯示同一字碼 甚至要自行造字 或捨統一碼而用其他編碼 一來尋找 轉換電腦字型構成不便 二來有損統一碼記錄每一字之用意 三來不能以純文本交換 四來電腦字型或因授權條款之限 難以交換流傳 另外 這亦等於不能以統一碼準確記錄文獻 不利數碼文本 不同字形之字合併後 若以字形爲本檢索 會產生混亂 難以檢索 如筆畫檢字 艸部之 艹頭 中國 日本算作三畫 而傳統中文爲四畫 留有 艸 形者則爲六畫 統一碼同一字碼源於字形不同就有幾種筆畫 檢索混亂 即使檢出字 筆畫與顯示出來的字形也不相符 因此 批評者認爲 統一碼合併異體字並不可取 收字過多 编辑 参见 異體字字典 但是另一方面 統一碼收錄不少幽靈漢字 其出處難以找到 它們在實際生活也極少機會使用 有些甚至是错讹字 或者僅是某一人的名字用字 那人不見得是名人 甚至可能已去世 卻永久成爲標準裏的字元 佔用了一碼位 比如臺灣律師呂秋𧽚的 𧽚 字本應作 遠 可是戶政人員誤聽他外公說的臺語 把 辵字邊 聽成 走馬邊 外公又不敢更正 當事人長大後 才確認這是錯字 33 但這字已永久收進統一碼 又如香港增補字符集有許多人名用字 學者都指出乃屬訛寫 或是來歷不明的自創新字 34 中文資訊界李祥在其專欄批評當局 解決不了增補字集中上千錯字 白字 生造字的讀音問題 呼籲 不要把香港增補字符集與申請ISO強迫聯繫在一起 35 然而 這些人名訛字亦已經收進統一碼 構成了收字過多的爭議 也有批评认为統一碼收入大量错讹字及写法高度相似的同一字的不同字形本身就不应该 电脑文本本身永远不可能完全无损地记录文献 且文献本身也会因传抄制版等原因略有不同 如果把每字的各种写法全部编码 會浪费空间 完全无损地研究 记录文献只能通过查看原本或照相影印版来完成 把无损保存转嫁给编码是错误的 現時統一碼把一些異體字分別編碼 帶來了檢索困難 只要寫法稍有不同 就无法检出 令使用戶检索字词时 必须反复检索其不同写法 造成重复劳动 对研究文献反而是种妨碍 例如統一碼将 兒 和 𠒇 字安放在不同的碼位裏 在检索文献时 檢索 兒 字時就找不到 雷莊𠒇 檢索 𠒇 字時就找不到 雷莊兒 反而造成困扰 36 準則矛盾 编辑 統一碼對同一部件有分有合 原則不一 如 眞 和 真 塡 和 填 都分離編碼 但 縝 和 縝 就整併了 直 和 直 植 和 植 皆整併作一碼 而 値 和 值 又分開 既令人混淆 亦令人無所適從 統一碼按原字集分離原則收字 只看各地區的既有編碼 不理會同一部件的文字學問題 可是用戶現實在電腦輸入文字時看到的是具體字形而不是編碼碼位 會讓人感到矛盾和困惑 而且在統一碼 中日韓統一表意文字 的不同區域裏 官方也用了不一致的併分尺度 早期的異體字時常獲分配正常碼位 後來常常只有兼容區的暫存編碼 使兼容區的字元在輸入和顯示時經常碰到問題 再後來則不時直接整併並交由变体选择符處理 於是統一碼的編碼矛盾就更突顯 漢字 编辑 是漢字 集韻 已有此字 則天文字亦有此字 漢語大字典 中華字海 現代漢語詞典 都收錄了此字 但在統一碼放入CJK符號和標點區 等同於數字0 在搜索 時會連帶搜索出數字0 使用時頗為不便 搜索漢字 一 二 三 不會搜索出數字1 2 3 此外 很多程序限定了漢字的範圍為統一碼各漢字區 區外不視為漢字 不在漢字區就無法處理 造成不便 已統一漢字 编辑ISO 10646原則只對字 Character 而非字形 Glyph 編碼 同一字各地可使用自己的標準寫法 以下使用HTML標示同一編碼的字在不同地區的寫法 但只是读者的浏览器所渲染的字型 与浏览器的设置与设备安装的字体有关 未必代表該地區的標準寫法 例子統一碼 中文 日文 韓文 越文中国大陸 臺灣 香港U 623F 房 房 房 房 房 房U 6C49 汉 註 4 U 6E2F 港 港 港 港 港 港U 6F22 漢 漢 漢 漢 漢 漢U 6FB3 澳 澳 澳 澳 澳 澳U 76F4 直 直 直 直 直 直U 7A97 窗 窗 窗 窗 窗 窗U 89D2 角 角 角 角 角 角U 8AA4 誤 誤 誤 誤 誤 誤U 8BEF 误 註 4 U 8D77 起 起 起 起 起 起U 9AA8 骨 骨 骨 骨 骨 骨註 不是所有網頁瀏覽器均可分辨全部HTML的語言代碼 Language Code 並使用不同字形 如非某一地区的使用者看到的字形和当地通用的字形一樣 表示该用户的瀏覽器不能分辨此標籤 或設定兩者以同一種字形顯示 未統一漢字 编辑主条目 未統一漢字列表 有些字只是同一字在不同地區的寫法 理應統一 但因為原字集分離原則而只好分開編碼 由於KS X 1001 Big5 IBM 32 JIS X 0213 ARIB STD B24 KPS 10721 CNS 11643有太多字形非常接近 按統一碼標準應該統一 但分開編碼的字 這些字只有正統的會編入正式字集 包括擴展區 不正統的編入 相容表意文字區 Compatibility Ideographs 和位於 第二輔助平面 的 相容表意文字補充區 Compatibility Ideographs Supplement 中 範例 統一碼 字 統一碼 字 統一碼 字U 4E1F 丟 U 4E22 丢U 514C 兌 U 5151 兑U 518A 冊 U 518C 册U 5433 吳 U 5434 吴 U 5449 呉U 543F 吿 U 544A 告U 5965 奥 U 5967 奧U 5968 奨 U 596C 奬 U 734E 獎U 5986 妆 U 599D 妝U 59CD 姍 U 59D7 姗U 5C13 尓 U 5C14 尔U 5F54 彔 U 5F55 录U 6236 戶 U 6237 户 U 6238 戸U 63FA 揺 U 6416 搖 U 6447 摇U 66A8 暨 U 66C1 曁U 69D8 様 U 6A23 樣U 6A2A 横 U 6A6B 橫U 6B65 步 U 6B69 歩U 7155 煕 U 7199 熙U 7D55 絕 U 7D76 絶U 7DA0 綠 U 7DD1 緑U 9AEA 髪 U 9AEE 髮U 9EAA 麪 U 9EAB 麫U 9EBC 麼 U 9EBD 麽U 9EC3 黃 U 9EC4 黄U 9ED1 黑 U 9ED2 黒自上表發表後 WG2亦調查過其他漢字 37 認為另一批屬於基本多文種平面的漢字 亦可考慮收編到ISO 10646 Annex S3 技術問題 编辑擴展B區 编辑 擴展B區用了輔助平面來擺放漢字 Microsoft Office 2000或之前的版本等不少文書處理軟件都不能支援 即使電腦有擴展B區漢字字體也只會顯示兩格方格 另外 擴展B區整理有缺陷 收錄了以下本來應與其他漢字統一的5字 38 U 20457𠑗 U 34A8㒨 U 2420E𤈎 U 3DB7㶷 U 27144𧅄 U 8641虁 U 23515𣔕 U 204F2𠓲 U 249E9𤧩 U 249BC𤦼而WG2 N1155 37 文件亦列出了152對可考慮統一的漢字 注释 编辑 這12字放到兼容區不是因為和其他字同形或為異體 而是因為它們只收錄在廠商用字 但未有收錄在官方標準 C T J K Source 他們有獨立的形 音 義 即 獨一 unique 7 部分字符來自多於一個來源 所以下表提交量總數多於收錄總數97058字 舊版 細明體 指Windows XP或以前版本之新細明體及細明體 漢字寫法大體遵從傳承字形 4 0 4 1 某些碼位原來只有個別地區的字 但其他地區為兼容國際標準 逐漸將所有碼位的字亦納入其國家標準 参考文献 编辑 無線流動裝置對 香港增補字符集 的支援 PDF 2022 12 19 原始内容存档 PDF 于2020 02 02 認識全字庫 中文碼介紹 2022 12 19 原始内容存档于2022 12 19 中日韓統一漢字簡明速查字典 2022 12 19 原始内容存档于2022 12 22 漢字統合の問題 2002 04 06 2022 12 20 原始内容存档于2022 12 20 Unicode Terminology English Traditional Chinese 2022 12 19 原始内容存档于2021 08 26 Roadmap to the TIP 統一碼聯盟 2018 06 03 原始内容存档于2018 06 11 Unicode 6 1 第410 411頁 1 页面存档备份 存于互联网档案馆 2 3 4 存档副本 PDF 2020 03 24 原始内容存档 PDF 于2019 08 19 存档副本 PDF 2020 03 24 原始内容存档 PDF 于2019 05 15 存档副本 PDF 2020 03 24 原始内容存档 PDF 于2019 05 15 存档副本 PDF 2020 03 24 原始内容存档 PDF 于2019 05 15 存档副本 PDF 2020 03 24 原始内容存档 PDF 于2019 05 15 https github com unicode org uk source ideographs 页面存档备份 存于互联网档案馆 Unihan IRGSources txt from Unihan zip 2023 01 04 原始内容存档于2023 01 08 日本的 仝 本來視為同上符號 編排於中日韩符号和标点區的 U 3004 Hanazono fonts fonts jp 2010 04 19 原始内容存档于2010 04 12 但後來與正字區 U 4EDD 的字認同 統一 了 U 3004 改為日本標準符號 收入中日韓相容表意文字 CJK Codes CCCII and ANSI Z39 64 1989 EACC www ibiblio org 2010 04 18 原始内容存档于2008 05 16 存档副本 PDF 2011 09 09 原始内容存档 PDF 于2012 05 09 存档副本 PDF 2011 09 09 原始内容存档 PDF 于2011 09 16 IRG N 1306 Request to Withdraw 6545 T Source from CJK D candidate PDF 2010 06 06 原始内容存档 PDF 于2011 07 21 IRGN1319A1 MoveToCJK D pdf 原始内容 PDF 存档于2018 01 15 存档副本 PDF 2015年12月12日 原始内容 PDF 存档于2015年1月4日 存档副本 PDF 2015 06 19 原始内容存档 PDF 于2015 06 25 存档副本 PDF 2020 03 11 原始内容存档 PDF 于2020 03 24 存档副本 2020 03 11 原始内容存档于2020 03 11 刻石錄 Unicode摧殘正體字 页面存档备份 存于互联网档案馆 刻石錄 不知丹青 枉談漢字 页面存档备份 存于互联网档案馆 安岡孝一 Unicodeの矛盾 2019 02 08 原始内容存档于2018 08 02 統漢字資料庫 統一碼聯盟 2009 05 04 原始内容存档于2009 05 04 libUnihan主頁 libUnihan 2009 05 04 原始内容存档于2012 03 21 呂秋遠 呂秋 走袁 页面存档备份 存于互联网档案馆 刊 立場新聞 政府通用字庫錯漏百出 收錄市民自創新字影響中文水平 太陽報 A6版 1999年10月13日 李祥 為了香港成為數碼城市 2019 02 22 原始内容存档于2019 05 26 散彈一號 𠒇 字係咩嚟 港姐冠軍帶出嘅哲學問題 页面存档备份 存于互联网档案馆 刊 輔仁媒體 37 0 37 1 IRGN1155 Possible Duplicates zip 2019 06 22 存档副本 PDF 2008 02 17 原始内容存档 PDF 于2007 06 12 外部連結 编辑統一碼裏中日韓表意文字和相關字符淺說 页面存档备份 存于互联网档案馆 CJK CODE 页面存档备份 存于互联网档案馆 UTF 8 and Unicode FAQ for Unix Linux 页面存档备份 存于互联网档案馆 中華民國教育部異體字字典附錄 中日韓共用漢字表 页面存档备份 存于互联网档案馆 查 Unicode 編碼 或 教育部異體字字典字號 页面存档备份 存于互联网档案馆 CBETA中華電子佛典協會 統一碼漢字統合歷史 页面存档备份 存于互联网档案馆 統漢字搜尋工具 页面存档备份 存于互联网档案馆 表意文字變體數據庫 页面存档备份 存于互联网档案馆 Unicode Roadmap to the TIP 页面存档备份 存于互联网档案馆 中日韓統一表意文字 页面存档备份 存于互联网档案馆 PDF 34 0MB 中日韓兼容漢字 页面存档备份 存于互联网档案馆 PDF 762kB 中日韓兼容漢字補充 页面存档备份 存于互联网档案馆 PDF 601kB 擴展A區漢字 页面存档备份 存于互联网档案馆 PDF 6 58MB 擴展B區漢字 页面存档备份 存于互联网档案馆 PDF 38 7MB 擴展C區漢字 页面存档备份 存于互联网档案馆 PDF 3 16MB 擴展D區漢字 页面存档备份 存于互联网档案馆 PDF 215kB 擴展E區漢字 页面存档备份 存于互联网档案馆 PDF 3 44MB 擴展F區漢字 页面存档备份 存于互联网档案馆 PDF 4 33MB 擴展G區漢字 页面存档备份 存于互联网档案馆 PDF 2 13MB ISO表意文字工作組ISO表意文字工作組網站 页面存档备份 存于互联网档案馆 ISO IEC 10646 Annex S漢字統一及編排步驟 页面存档备份 存于互联网档案馆 擴展C區編碼網站 页面存档备份 存于互联网档案馆 急用汉字 UNC 多栏列表参见 编辑 nbsp 汉字文化圈主题 nbsp 信息技术主题 表意文字 语素文字 汉字 汉字文化圈 辅助平面 字形 ISO 10646 Unicode 國際表意文字核心 IICore 异体字 Unicode Wikipedia Unicode扩展汉字 取自 https zh wikipedia org w index php title 中日韓統一表意文字 amp oldid 79422540, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。