GB 2312
GB/T 2312[註 1],GB/T 2312–80 或 GB/T 2312–1980 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,通常簡稱GB(「国标」汉语拼音首字母),又稱GB0,由中国国家标准总局於1980年发布,1981年5月1日实施。GB/T 2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB/T 2312。
概述
GB/T 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。
GB/T 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁體字,GB/T 2312不能处理,因此后来GBK及GB 18030汉字字符集相继出现以解決這些問題。
分区表示
GB/T 2312 中对所收汉字进行了“分区”处理,每区含有94个汉字/符号,共计94个区。实际上,GB/T 2312 只使用了87区。
用所在的区和位来表示字符(实际上就是码位)的方法称为区位码(或许叫“区位号”更为恰当[來源請求])。例如“万”字在45区82位,所以“万”字的区位码是 45-82(45是“区码”,82是“位码”)。在储存进电脑时,电脑会在区位码上加上特定数字后才保存进内存以确保和其他编码兼容(如 ASCII)。转码后,区位码的“区码”会变成“高位字节”,而“位码”会变成“低位字节”。
下列是 GB/T 2312 分区后在区段内储存的字符:
- 01~09区(682个):特殊符号、数字、英文字符、制表符等,包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母等在内的682个全角字符;
- 10~15区:空区,留待扩展;在附录3,第10区推荐作为 GB 1988–80 中的94个图形字符区域(即第3区字符之半形版本)。
- 16~55区(3755个):常用汉字(也称一级汉字),按拼音排序;
- 56~87区(3008个):非常用汉字(也称二级汉字),按部首/笔画排序;
- 88~94区:空区,留待扩展。
字节结构
在 GB 2312 内,每个汉字及符号的码位使用两个字节来表示。第一个字节称为“高位字节”,对应分区的编号(把区位码的“区码”加上特定值);第二个字节称为“低位字节”,对应区段内的个别码位(把区位码的“位码”加上特定值)。
ISO 2022-CN(国标码、交换码)
为了避开ASCII字符中的CR0不可显示字符(十六进制为0×00
至0×1F
,十进制为0至31)及空格字符(十六进制为0×20
,十进制为32),国标码(又称为交换码)参考 ISO 2022 规定表示非 ASCII 字符双字节编码范围为十六进制为 <21 21>
-<7E 7E>
,十进制为 (33, 33) 至 (126, 126)。因此,在进行码位转换时,须将“区码”和“位码”分别加上32(十六进制为0×20
)作为国标码。
在这个编码模式内,软件需要使用低端控制字符(C0),高端控制字符(C1)和US-ASCII字符集(GL)标注字符属于单字节(ASCII)还是双字节,相对容易造成乱码(如丢失控制/转义字符)。
在 GB/T 2312 内,高位字节使用了0x21–0x77
(把01–87区的区号加32或0×20
),低位字节使用了0x21–0x7E
(把01–94加上32或0×20
)。
例:“万”字(区位码 45-82)的 ISO 2022 码十进制为:(45+32, 82+32) = (77, 114),十六进制为:<4D 72>
。[1][2]
EUC-CN(机内码、内码)
因为国标码和通用的ASCII码冲突,因此后续为了方便辨认单字节和双字节的编码,部分厂商在 ISO 2022 的基础上把双字节字符的二进制最高位都从 0 换成 1,即相当于把 ISO 2022 的每个字节都再加上128(十六进制为0×80
)得到“机内码”表示,简称“内码”。把“区码”和“位码”分别加上160(十六进制为0×A0
)也可以得到相同的机内码表示,这种格式也就是EUC。使用GB/T 2312的程序通常采用 EUC 储存方法,以便兼容于 ASCII。这种格式称为EUC-CN。浏览器编码表上的“GB2312”就是指这种表示法。
在 GB/T 2312 内,高位字节使用了0xA1–0xF7
(把01–87区的区号加160或0×A0
),低位字节使用了0xA1–0xFE
(把01–94加上160或0×A0
)。非 ASCII 字符双字节编码范围为十六进制为 <A1 A1>
-<FE FE>
,十进制为 (161, 161) 至 (254, 254)。
例:“万”字(区位码 45-82)的 EUC 码十进制为:(45+160, 82+160) = (205, 242),十六进制为:<CD F2>
。[1][2]
HZ
HZ 编码是由李楓峰在1988年发明的编码系统[3]。其目的是在7字节的限制下(如电子邮件)储存 GB/T 2312 的双字节字符。其在 ISO 2022 编码字符的前后分别加上转义字符~{
(7E 7B
)和~}
(7E 7D
)后,使用正常的ASCII转码变成 ASCII 字符。部分机器也可以接受使用 EUC-CN 编码的转义字符。
例:“万”字(区位码 45-82)的 ISO 2022 码十六进制为 <4D 72>
。加上转义字符后,字符串变成7E 7B 4D 72 7E 7D
。HZ的编码即为~{Mr~}
(M
的ASCII码是0×4D
,r
的ASCII码是0×72
)。[4]
對「不規範簡化字」和繁體字的收錄
- 收了兩個不合乎中華人民共和國標準的簡化字:
修訂
GB 5007.1–85《信息交换用汉字 24x24 点阵字模集》首次附錄對 GB/T 2312 之更正,包括:
- 調整拉丁字母「g」的字形
- 補充六個拼音符號 ɑ ḿ ń ň ǹ ɡ,用於汉语拼音[註 3]
- 「鍾」更正為「锺」
- 於第10區補充94個半字圖形字符(第3區之半形版本,相當於 GB 1988–80)
- 於第11區加入第8區首32個拼音符號(包括以上補充六個)之半形版本。
GB 5007.1–85曾将「麴」(84–80)更换成「麹」,但是后续修订(GB 5007.1–2001 和 GB/T 5007.1–2010)和其他字模集仍旧保留 GB/T 2312 的繁体偏旁「麥」之「麴」。
GB/T 2312 本身一直未有修訂,但此等修訂部份收入相關字模集(下詳)、GB/T 12345、後續之 GBK 及 GB 18030。
GB/T 2312 亦用於 ISO-IR-165。
两种不同的GB/T 2312实现
有两种不同的GB/T 2312实现,在它们之间存在少量的差别,其中至少有一个是错误的。
区位码(EUC码) | GBK子集 | GB2312.TXT | 字符名称[5] | ||
---|---|---|---|---|---|
01-04 (<A1 A4>) | U+00B7 · MIDDLE DOT | U+30FB ・ KATAKANA MIDDLE DOT | 间隔点 | ||
01-10 (<A1 AA>) | U+2014 — EM DASH | U+2015 ― HORIZONTAL BAR | 破折号 |
GBK子集与GBK/GB 18030兼容,GB2312.TXT则不兼容。后者基于ftp.unicode.org曾经提供的GB2312.TXT实现,[6]于2011年由官方弃用,[7]2016年9月时已无原文件踪迹。此外还有很多种厂商实现。[6]
截至2015年ICU[8]、libiconv-1.14、[9]php-5.6、ActivePerl-5.20、Java 1.7、Python 3.4[10]都使用“GB2312.TXT”实现。Ruby 2.2兼容两者编码,但内部使用“GBK子集”实现。W3C的编码技术指南规定,应将gb2312
字节流视为GBK编码,与GB18030一并使用同一解码器解码。[11]
字模集
- GB 5007.1–85《信息交换用汉字 24x24 点阵字模集》
- GB 5007.2–85《信息交换用汉字 24x24 点阵字模数据集》
- GB 5199.1–85《信息交换用汉字 15x16 点阵字模集》
- GB 5199.2–85《信息交换用汉字 15x16 点阵字模数据集》
- GB 6345.1–86《信息交换用汉字 32x32 点阵字模集》
- GB 6345.2–86《信息交换用汉字 32x32 点阵字模数据集》
- GB 12034–89《信息交换用汉字 32x32 点阵仿宋体字模集及数据集》
- GB 12035–89《信息交换用汉字 32x32 点阵楷体字模集及数据集》
- GB 12036–89《信息交换用汉字 32x32 点阵黑体字模集及数据集》
- GB 12037–89《信息交换用汉字 36x36 点阵宋体字模集及数据集》
- GB 12038–89《信息交换用汉字 36x36 点阵仿宋体字模集及数据集》
- GB 12039–89《信息交换用汉字 36x36 点阵楷体字模集及数据集》
- GB 12040–89《信息交换用汉字 36x36 点阵黑体字模集及数据集》
- GB 12041–89《信息交换用汉字 48x48 点阵宋体字模集及数据集》
- GB 12042–89《信息交换用汉字 48x48 点阵仿宋体字模集及数据集》
- GB 12043–89《信息交换用汉字 48x48 点阵楷体字模集及数据集》
- GB 12044–89《信息交换用汉字 48x48 点阵黑体字模集及数据集》
- GB/T 13443–92《信息交换用汉字 128x128 点阵楷体字模集及数据集》
- GB/T 13444–92《信息交换用汉字 128x128 点阵仿宋体字模集及数据集》
- GB/T 13445–92《信息交换用汉字 256x256 点阵楷体字模集及数据集》
- GB/T 13446–92《信息交换用汉字 256x256 点阵仿宋体字模集及数据集》
- GB/T 13844–92《图形信息交换用矢量汉字单线宋体字模集及数据集》
- GB/T 13845–92《图形信息交换用矢量汉字宋体字模集及数据集》
- GB/T 13846–92《图形信息交换用矢量汉字仿宋体字模集及数据集》
- GB/T 13847–92《图形信息交换用矢量汉字楷体字模集及数据集》
- GB/T 13848–92《图形信息交换用矢量汉字黑体字模集及数据集》
注釋
- ^ 自2017年3月23日起,根据2017年第7号公告和强制性标准整合精简结论,该标准转化成推荐性标准,不再强制执行,由「GB 2312–80」改称为「GB/T 2312」。. 中国国家标准全文公开系统. [2020-03-30]. (原始内容存档于2021-02-27).
- ^ 1965年《印刷通用漢字字形表》將「锺」(使用簡化偏旁)注明為「作为人名地名及引用文言文的时候仍有需要」;2013年《通用規範漢字表》收錄「锺」(2013:7679),可用於姓名
- ^ ɑ(U+0251)
ḿ(U+1E3F;Unicode 3.0 始開始收納,故 CP936 亦未收[1])
ń(U+0144)
ň(U+0148)
ǹ(U+01F9;Unicode 3.0 始開始收納,故 CP936 亦未收[2])
ɡ(U+0261)
参考文献
- ^ 1.0 1.1 品雪. 中文编码小知识. 知乎专栏. [2022-05-02] (中文).
- ^ 2.0 2.1 Lunde, Ken Roger. 第二版. O'Reilly. 2008年十二月 [2022-05-02]. ISBN 978-0-596-51447-1. (原始内容存档于2011-08-29).
- ^ . (原始内容存档于2005-10-27).
- ^ . cloud.tencent.com. [2022-05-02]. (原始内容存档于2020-09-29).
- ^ GB 2312-1980: Information technology—Chinese ideogram coded character set for information interchange (basic set). [2 October 2016].
- ^ 6.0 6.1 Haible, Bruno. GB2312 (Conversion Tables). [29 September 2016]. (原始内容于2016-10-20).
- ^ Readme - MAPPINGS/OBSOLETE/EASTASIA. 9 August 2001 [29 September 2016]. (原始内容于2015-08-01).
- ^ java-EUC_CN-1.3_P.ucm. [29 September 2016].[永久失效連結]
- ^ libiconv:lib/gb2312.h. GNU Savannah. [29 September 2016].
- ^ Issue 24036. Python Bug Tracker. [2015-04-24]. (原始内容于2016-03-04).
- ^ Encoding § Names and labels. W3C. [29 September 2016]. (原始内容于2017-03-18).
外部链接
- GB2312 80信息交换用汉字编码字符集 基本集 - 中华人民共和国教育部政府门户网站(页面存档备份,存于互联网档案馆)
- GB2312 简体中文编码表(页面存档备份,存于互联网档案馆)
- 信息交换用汉字编码字符集属性[永久失效連結](官方)
- GB 2312-80 (CJKV Information Processing,Appendix E) "STSong-Light" font designed by Changzhou SinoType Technology (页面存档备份,存于互联网档案馆)
- 図書館員のコンピュータ基礎講座:GB 2312-80コード表(页面存档备份,存于互联网档案馆)(日語)
参见
- 同一时期的其他漢字編碼:大五碼(Big5)、國家標準中文交換碼(CNS 11643)、CCCII、香港增補字符集(HKSCS)、JIS X 0208
- Unicode、通用字符集(ISO/IEC 10646)
- 中日韓統一表意文字
- GB/T 12345