fbpx
维基百科

漢字描述語言

漢字描述语言是指可以完整且準確地描述漢字字符和信息的计算机语言,它們包含了字符的组成、(基本和複雜的)笔画、顺序以及位置,旨在克服在使用點陣圖來描述字形時所遇到的信息缺乏。其所包含的訊息可以來識別字符(統一碼通用字符集统一为一个碼位)的異體字,或一些統一碼和通用字符集尚未收錄的罕見字。

它們的工作,大多是基於楷書宋體,來提供字符的内部结构,因而可以藉由索引字符的内部結構和相似字符,從而更容易地查找字符。

字形描述語言 编辑

 
字符描述語言中,各層級的部件

字形描述语言(英語:Character Description Language,簡稱:CDL),或稱字描語,是基於XML字型技術,由畢曉普(英語:Tom Bishop)和 曲理查(英語:Richard Cook) 为文林研究所所共同創建。其目的在描述任何CJK 字符,但可用于描述任何字形

这种基于 XML 的宣告式语言定义了每個組件(字形的一个子单元,类似于部首,但不一定具有真正部首的语义意义)的筆順,以及使用先前定义的组件所构建更复杂的字符。除了用作构建组件之外,这些组件中的许多组件本身就是字符。

背景看起来像一个每边128 像素的正方形。在这个背景下:

  1. 使用可縮放向量圖形,可繪製 50 个笔画。
  2. 一个基本组件是通过调用數个笔画来组成的。在此组件中,每个笔画都由其左下角和右上角描述。可以进行转换(缩小、放大等)。 。有 1,000 多个基本组件。
  3. 一个字符是通过调用几个组件组成的。在这个字符中,每个组件都由其左下角和右上角描述。为了使组件适合汉字矩形块的适当部分,在將部分嵌入構建方塊時,可以轉換(如:水平、重直或放大、縮小)。

因此,一组少于 50 个笔画[1]允许构建一组大约 1,000 个组件[2] ,这些组件又可以嵌入到数万个字符的描述中。 [2] 50 个基本笔画之一的形状变化隐含在嵌入该笔画的每个字符中。同样,对组件的更改隐式应用于其组合使用该组件的每个和所有角色。 [2]

湯姆·畢曉普和 R. Cook 解释如下:

字符的筆劃數通常跟其它字符的筆劃數是有關的。大部分字符是以多個部件所構建。只要知道了每個部件的筆劃數,那總筆劃數只是單純地部件筆劃數相加。因此,如果有個標準定義了千多個字符的筆劃,它也定義了成千上萬個其它字符。[3]


截至2020年 (2020-Missing required parameter 1=month!),透過字描語包含了近 10 萬個字符描述,可完整支援統一碼 7.0。[3]

HanGlyph 编辑

用于在文檔中提供缺失的罕見字(即外字问题)的漢字描述語言。 [4]文档可以包含缺失字符的标记,这将自动触发生成小字体以提供字符。语言本身是一个简单的后缀符号,描述了笔画和组合它们的方式。原型软件使用Metapost来描給字符并将它们嵌入到LaTeX文档中。该语言由 Wai Wong 于 1997 年提出 [5],2003年的 TeX使用者會議上,則有關於實作的論文。 [6] [7]

表意文字描述序列 编辑

統一碼第 12 章定義了“表意文字描述序列”(IDS) 的语法[8],旨在用于描述标准中未包含的字符,即根据具有代码点的组件组合。 U+2FF0 到 U+2FFB 范围内的十二个特殊字符充当前缀运算符,以组合其他字符或序列以形成更大的字符。

統一碼中的表意文字描述字符
特点 統一碼字符编号 完整的統一碼名称
U+2FF0 Ideographic description character left to right

表意文字字符用於左右結構

U+2FF1 Ideographic description character above to below

表意文字字符用於上下結構

U+2FF2 Ideographic description character left to middle and right

表意文字字符用於左中右結構

U+2FF3 Ideographic description character above to middle and below

表意文字字符用於上中下結構

U+2FF4 Ideographic description character full surround

表意文字字符用於全包圍結構

U+2FF5 Ideographic description character surround from above

表意文字字符用於從上方包圍結構

U+2FF6 Ideographic description character surround from bellow

表意文字字符用於從下方包圍結構

U+2FF7 Ideographic description character surround from left

表意文字字符用於從左方包圍結構

U+2FF8 Ideographic description character surround from upper left

表意文字字符用於從左上角環繞

U+2FF9 Ideographic description character surround from upper right

表意文字字符用於從右上方環繞

U+2FFA Ideographic description character surround from lower left

表意文字字符用於從左下角環繞

U+2FFB Ideographic description character overlaid

表意文字字符用於交錯

这些序列对于向读者描述無法直接顯示的字符很有用,因为它在给定字体中不存在,或者完全不存在于統一碼标准中。例如,方塊壯字 字符“ ”(在中日韩统一表意文字扩展 F 中编码为 U+2DA21 𭨡),可以描述成“⿰書史”。另一个用途是用于查找字典,即作为用來輸入查询的一种簡略输入法

这些序列的呈現方式,可以是分別地保留所有字符,或通过解析序列後來繪製目標字符。 [9]它们本身并不能为所有字符提供明确的描繪。例如,序列「⿱十一」代表「土」和「士」。方式

这些序列的統一碼规范基于早期GBK标准的字符和语法。

Matthew Skala 提供的自由软件包 IDSgrep[10] [11] 扩展了統一碼的表意文字描述序列语法,包括用于字典查找的附加功能;它能够将 KanjiVG 的数据库转换为它自己的扩展 IDS 格式,或者針對由相关的 Tsukurimashou 字体所生成的 EIDS 文件來搜尋。

KanjiVG 编辑

KanjiVG 是一种自由 (CC-by-sa-3.0) 日语字符描述语言(旨在最终扩展到中文),它是基于SVG和維基編輯系统。

SCML 编辑

2007年,结构字符建模语言是另一個基于XML的汉字描述语言,其定位不像字描語和HanGlyph那样基于数字网格。其資料庫所使用的筆畫、部件是以 SCML 编码。其資料庫儘用于原理演示,目前没有已知的尝试將 SCML 套用在所有的統一碼,為 CJK 字符进行编码。

參見 编辑

外部链接 编辑

文林学院CDL语言
  • Wenlin Institute, Wenlin User's Guide : Character Description Language, 2015 [2021-11-29], (原始内容于2021-11-29) 
  • Bishop, Tom; Cook, Richard, CDL specification, [2021-11-29], (原始内容于2020-05-13) 
  • Bishop, Tom; Cook, Richard, Character Description Language (CDL): The Set of Basic CJK Unified Stroke Types (PDF), 2003 [2021-11-29], (原始内容 (PDF)于2021-10-23) 
  • Bishop, Tom; Cook, Richard, A Specification for CDL Character Description Language (PDF), 2003-10-31 [2021-11-29], (原始内容 (PDF)于2021-10-21) 
    • 2003/12/31 更正:Bishop, Tom; Cook, Richard, (PDF), 2003-10-31 [2018-01-17], (原始内容 (PDF)存档于2016-04-05) 
  • Cook, Richard, Chinese Character Description Languages (PDF), 2003 [2021-11-29], (原始内容 (PDF)于2021-10-23) 
  • Bishop, Tom, A character description language for CJK (PDF), Multilingual, #91, Volume 18 Issue 7: 62–8, 2007 [2021-11-29], (原始内容 (PDF)于2021-11-18) 
  • 美国国家人文基金会的数字人文启动资助 (页面存档备份,存于互联网档案馆
SCML
  • Peebles, Daniel G.; Balkcom, Devin (Advisor), (PDF), Dartmouth College: 30, 2007-05-29 [August 30, 2009], (原始内容 (PDF)存档于2016-03-10) 
字形
  • HanGlyph – a Chinese Character Description Language - Presentation, [2007-12-11], (原始内容存档于2013-01-25) 
  • (PDF): 31, 13 September 2003 [11 December 2007], (原始内容 (PDF)存档于2016-03-04) 

參考資料 编辑

  1. ^ Bishop & Cook 2013-12-31:p2
  2. ^ 2.0 2.1 2.2 Bishop & Cook 2013-12-31:p9
  3. ^ 3.0 3.1 文林字形描述語言. [2021-11-29]. (原始内容于2021-11-29). 
  4. ^ HanGlyph. [17 February 2012]. (原始内容存档于24 January 2013). 
  5. ^ Wong, Wai. (PDF). Proceedings of the Seventeenth International Conference on Computer Processing of Oriental Languages, Hong Kong. April 1997. (原始内容 (PDF)存档于2021-08-23). 
  6. ^ Yiu, Candy L. K.; Wai Wong. (PDF). Proceedings of the 24th Annual Meeting and Conference of the TeX User Group, Hawaii, U.S.A. July 2003. (原始内容 (PDF)存档于2011-07-26). 
  7. ^ Wong, Wai; Candy L. K. Yiu; Kelvin, C. F. Ng. (PDF). Proceedings of the 14th European TeX Conference, Brest, France. June 2003. (原始内容 (PDF)存档于2011-11-06). 
  8. ^ 存档副本 (PDF). [2021-11-29]. (原始内容 (PDF)于2019-11-22). 
  9. ^ The Unicode® Standard – Version 12.0 – Core Specification (PDF). Unicode Consortium. March 2019 [2021-11-29]. (原始内容 (PDF)于2020-11-12). 
  10. ^ Tsukurimashou Font Family and IDSgrep Project Top Page - OSDN. [2021-11-29]. (原始内容于2015-03-25). 
  11. ^ Skala, Matthew. (PDF). International Journal of Asian Language Processing. 2015, 23 (2): 127–159 [2016-01-13]. arXiv:1404.5585 . (原始内容 (PDF)存档于2016-03-04). 

漢字描述語言, 漢字描述语言是指可以完整且準確地描述漢字字符和信息的计算机语言, 它們包含了字符的组成, 基本和複雜的, 笔画, 顺序以及位置, 旨在克服在使用點陣圖來描述字形時所遇到的信息缺乏, 其所包含的訊息可以來識別字符, 統一碼和通用字符集统一为一个碼位, 的異體字, 或一些統一碼和通用字符集尚未收錄的罕見字, 它們的工作, 大多是基於楷書和宋體, 來提供字符的内部结构, 因而可以藉由索引字符的内部結構和相似字符, 從而更容易地查找字符, 目录, 字形描述語言, hanglyph, 表意文字描述序列, ka. 漢字描述语言是指可以完整且準確地描述漢字字符和信息的计算机语言 它們包含了字符的组成 基本和複雜的 笔画 顺序以及位置 旨在克服在使用點陣圖來描述字形時所遇到的信息缺乏 其所包含的訊息可以來識別字符 統一碼和通用字符集统一为一个碼位 的異體字 或一些統一碼和通用字符集尚未收錄的罕見字 它們的工作 大多是基於楷書和宋體 來提供字符的内部结构 因而可以藉由索引字符的内部結構和相似字符 從而更容易地查找字符 目录 1 字形描述語言 2 HanGlyph 3 表意文字描述序列 4 KanjiVG 5 SCML 6 參見 7 外部链接 8 參考資料字形描述語言 编辑 nbsp 字符描述語言中 各層級的部件字形描述语言 英語 Character Description Language 簡稱 CDL 或稱字描語 是基於XML的字型技術 由畢曉普 英語 Tom Bishop 和 曲理查 英語 Richard Cook 为文林研究所所共同創建 其目的在描述任何CJK 字符 但可用于描述任何字形 这种基于 XML 的宣告式语言定义了每個組件 字形的一个子单元 类似于部首 但不一定具有真正部首的语义意义 的筆順 以及使用先前定义的组件所构建更复杂的字符 除了用作构建组件之外 这些组件中的许多组件本身就是字符 背景看起来像一个每边128 像素的正方形 在这个背景下 使用可縮放向量圖形 可繪製 50 个笔画 一个基本组件是通过调用數个笔画来组成的 在此组件中 每个笔画都由其左下角和右上角描述 可以进行转换 缩小 放大等 有 1 000 多个基本组件 一个字符是通过调用几个组件组成的 在这个字符中 每个组件都由其左下角和右上角描述 为了使组件适合汉字矩形块的适当部分 在將部分嵌入構建方塊時 可以轉換 如 水平 重直或放大 縮小 因此 一组少于 50 个笔画 1 允许构建一组大约 1 000 个组件 2 这些组件又可以嵌入到数万个字符的描述中 2 50 个基本笔画之一的形状变化隐含在嵌入该笔画的每个字符中 同样 对组件的更改隐式应用于其组合使用该组件的每个和所有角色 2 湯姆 畢曉普和 R Cook 解释如下 字符的筆劃數通常跟其它字符的筆劃數是有關的 大部分字符是以多個部件所構建 只要知道了每個部件的筆劃數 那總筆劃數只是單純地部件筆劃數相加 因此 如果有個標準定義了千多個字符的筆劃 它也定義了成千上萬個其它字符 3 截至2020年 2020 Missing required parameter 1 month update 透過字描語包含了近 10 萬個字符描述 可完整支援統一碼 7 0 3 HanGlyph 编辑用于在文檔中提供缺失的罕見字 即外字问题 的漢字描述語言 4 文档可以包含缺失字符的标记 这将自动触发生成小字体以提供字符 语言本身是一个简单的后缀符号 描述了笔画和组合它们的方式 原型软件使用Metapost来描給字符并将它们嵌入到LaTeX文档中 该语言由 Wai Wong 于 1997 年提出 5 2003年的 TeX使用者會議上 則有關於實作的論文 6 7 表意文字描述序列 编辑統一碼第 12 章定義了 表意文字描述序列 IDS 的语法 8 旨在用于描述标准中未包含的字符 即根据具有代码点的组件组合 U 2FF0 到 U 2FFB 范围内的十二个特殊字符充当前缀运算符 以组合其他字符或序列以形成更大的字符 統一碼中的表意文字描述字符 特点 統一碼字符编号 完整的統一碼名称 U 2FF0 Ideographic description character left to right 表意文字字符用於左右結構 U 2FF1 Ideographic description character above to below 表意文字字符用於上下結構 U 2FF2 Ideographic description character left to middle and right 表意文字字符用於左中右結構 U 2FF3 Ideographic description character above to middle and below 表意文字字符用於上中下結構 U 2FF4 Ideographic description character full surround 表意文字字符用於全包圍結構 U 2FF5 Ideographic description character surround from above 表意文字字符用於從上方包圍結構 U 2FF6 Ideographic description character surround from bellow 表意文字字符用於從下方包圍結構 U 2FF7 Ideographic description character surround from left 表意文字字符用於從左方包圍結構 U 2FF8 Ideographic description character surround from upper left 表意文字字符用於從左上角環繞 U 2FF9 Ideographic description character surround from upper right 表意文字字符用於從右上方環繞 U 2FFA Ideographic description character surround from lower left 表意文字字符用於從左下角環繞 U 2FFB Ideographic description character overlaid 表意文字字符用於交錯这些序列对于向读者描述無法直接顯示的字符很有用 因为它在给定字体中不存在 或者完全不存在于統一碼标准中 例如 方塊壯字 字符 nbsp 在中日韩统一表意文字扩展 F 中编码为 U 2DA21 𭨡 可以描述成 書史 另一个用途是用于查找字典 即作为用來輸入查询的一种簡略输入法 这些序列的呈現方式 可以是分別地保留所有字符 或通过解析序列後來繪製目標字符 9 它们本身并不能为所有字符提供明确的描繪 例如 序列 十一 代表 土 和 士 方式这些序列的統一碼规范基于早期GBK标准的字符和语法 Matthew Skala 提供的自由软件包 IDSgrep 10 11 扩展了統一碼的表意文字描述序列语法 包括用于字典查找的附加功能 它能够将 KanjiVG 的数据库转换为它自己的扩展 IDS 格式 或者針對由相关的 Tsukurimashou 字体所生成的 EIDS 文件來搜尋 KanjiVG 编辑KanjiVG 是一种自由 CC by sa 3 0 日语字符描述语言 旨在最终扩展到中文 它是基于SVG和維基編輯系统 SCML 编辑2007年 结构字符建模语言是另一個基于XML的汉字描述语言 其定位不像字描語和HanGlyph那样基于数字网格 其資料庫所使用的筆畫 部件是以 SCML 编码 其資料庫儘用于原理演示 目前没有已知的尝试將 SCML 套用在所有的統一碼 為 CJK 字符进行编码 參見 编辑動態組字 統一碼 說文解字部首列表 徐慎 公元 147 年 在 说文解字 中使用 540 個部首 康熙部首 在康熙皇帝時期所編纂的康熙字典 1716 所列出的 214 個部首 統一碼部首列表 由統一碼所滙整的 CJK 部首 倉頡輸入法 部首 筆劃 笔画顺序外部链接 编辑文林学院CDL语言Wenlin Institute Wenlin User s Guide Character Description Language 2015 2021 11 29 原始内容存档于2021 11 29 Bishop Tom Cook Richard CDL specification 2021 11 29 原始内容存档于2020 05 13 Bishop Tom Cook Richard Character Description Language CDL The Set of Basic CJK Unified Stroke Types PDF 2003 2021 11 29 原始内容存档 PDF 于2021 10 23 Bishop Tom Cook Richard A Specification for CDL Character Description Language PDF 2003 10 31 2021 11 29 原始内容存档 PDF 于2021 10 21 2003 12 31 更正 Bishop Tom Cook Richard Specification for CDL PDF 2003 10 31 2018 01 17 原始内容 PDF 存档于2016 04 05 Cook Richard Chinese Character Description Languages PDF 2003 2021 11 29 原始内容存档 PDF 于2021 10 23 Bishop Tom A character description language for CJK PDF Multilingual 91 Volume 18 Issue 7 62 8 2007 2021 11 29 原始内容存档 PDF 于2021 11 18 美国国家人文基金会的数字人文启动资助 页面存档备份 存于互联网档案馆 SCMLPeebles Daniel G Balkcom Devin Advisor SCML A Structural Representation for Chinese Characters Technical Report TR2007 592 PDF Dartmouth College 30 2007 05 29 August 30 2009 原始内容 PDF 存档于2016 03 10 字形HanGlyph a Chinese Character Description Language Presentation 2007 12 11 原始内容存档于2013 01 25 HanGlyph a Chinese Character Description Language Reference Manual PDF 31 13 September 2003 11 December 2007 原始内容 PDF 存档于2016 03 04 參考資料 编辑 Bishop amp Cook 2013 12 31 p2 2 0 2 1 2 2 Bishop amp Cook 2013 12 31 p9 3 0 3 1 文林字形描述語言 2021 11 29 原始内容存档于2021 11 29 HanGlyph 17 February 2012 原始内容存档于24 January 2013 Wong Wai HanGlyph a Chinese Character Description Language PDF Proceedings of the Seventeenth International Conference on Computer Processing of Oriental Languages Hong Kong April 1997 原始内容 PDF 存档于2021 08 23 Yiu Candy L K Wai Wong Chinese Character Synthesis using METAPOST PDF Proceedings of the 24th Annual Meeting and Conference of the TeX User Group Hawaii U S A July 2003 原始内容 PDF 存档于2011 07 26 Wong Wai Candy L K Yiu Kelvin C F Ng Typesetting Rare Chinese Characters in LaTeX PDF Proceedings of the 14th European TeX Conference Brest France June 2003 原始内容 PDF 存档于2011 11 06 存档副本 PDF 2021 11 29 原始内容存档 PDF 于2019 11 22 The Unicode Standard Version 12 0 Core Specification PDF Unicode Consortium March 2019 2021 11 29 原始内容存档 PDF 于2020 11 12 Tsukurimashou Font Family and IDSgrep Project Top Page OSDN 2021 11 29 原始内容存档于2015 03 25 Skala Matthew A Structural Query System for Han Characters PDF International Journal of Asian Language Processing 2015 23 2 127 159 2016 01 13 arXiv 1404 5585 nbsp 原始内容 PDF 存档于2016 03 04 取自 https zh wikipedia org w index php title 漢字描述語言 amp oldid 79409160, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。