fbpx
维基百科

動態組字

動態組字是一種汉字電腦等領域的編碼理論及技術。

拼音文字英文字母,一套字型只要製作26個字母和一些標點符號就足夠使用。但漢字是一種意音文字,若無數千到數萬個字符數量,便不足以應付基本的訊息交換。即便已有數萬個字符,往往在面對古籍時還有缺字的問題。這造成漢字無論是製作、儲存、使用、或交流,成本都遠高於表音文字,這對漢字的文化發展非常不利。

鑑於此,中國大陸臺灣都有人在研究「動態組字」技術,這個技術的目的是解除電腦系統對漢字的束縛。作法是,只在記憶體中儲存少量(約數百至一千多)的字根部件,並用程式控制,以遞迴的方式根據部件做即時的「二維組字」,顯示到螢幕上。「字根」在此就相當於拼音文字的字母,差別只在於字母表音而字根表意。

有了動態組字,使用者便可因應各式需求自行造字,再無缺字之虞。此外,組字的過程反向操作(也就是拆字),就可以作漢字理解,也有助於人工智慧、手寫辨識及中文PDA手機手持式裝置開發。亦可延長儲存裝置壽命。

Unicode

Unicode標準從3.0開始,開始有表意文字序列(Ideographic Description Sequence,IDS),為採用表意文字組合符(Ideographic Description Character,IDC)與文字部件的組合,為缺字描述定下一個標準基礎,只要加上解譯描繪的機制,也是一種動態組字的實現。

參考

倉頡系統

這是最早產品化的系統,由早年電腦中文化的開拓者朱邦復所提出。編碼上採文傳碼,是一種定長度編碼,也就是說可造字有限。

文傳碼分為兩版:

  • 2 byte版的文傳碼,上限是15 bits(三萬二千字),第一個bit為避開ASCII
  • 4 byte版的文傳碼,每個輸入碼佔6 bits共5組,每個6 bits為倉頡輸入碼(26個)+ 5個重複字(1號重複,2號重複)所以理論上有超過一千萬個碼位。

該系統精巧快速,但因以8086組合語言寫成,故需要重新解譯才能跨平台使用。組字方式純粹取決於字形外貌,配合倉頡輸入法字根作部件基礎,未必符合文字學原理,如「門」取碼爲「日弓」,乃取其首尾字根形狀(「日」和「亅」)。優點:如果拼音文字,可組出符合中文構字原理的任何字,理論上可達一千萬個字。目前只有在香港文化傳信授權製造的特定的嵌入式硬體才有實作此技術。

參考

  • 朱邦復工作室設計的字型產生器 (页面存档备份,存于互联网档案馆(繁體中文)

中央研究院漢字部件檢字系統

中央研究院漢字部件檢字系統的研發最早可追溯於1972年國立交通大學關於「交大字根系統」的一系列論文和報告。1993年,中央研究院資訊科學研究所中由謝清俊院士及莊德明助技師所帶領的文獻處理實驗室 (页面存档备份,存于互联网档案馆)沿用「交大字根系統」的方法,經年整理各代古文,提出構字式(基於Big5)的作法,整理出各代文字的部件資料庫,分析所有漢字在文字學上的合理組成,進行重作改造,進而建立漢字構形資料庫。2008年更名為中央研究院漢字部件檢字系統,程式部份改以GPL 3.0發佈,資料部份則改以GFDL 1.2及CC-BY-SA 2.5 TW發佈,作為整體軟體專案時則以GPL 3.0發佈。最新版本為2.7。目前中研院正開發3.0版,新版的中文字碼將改用Unicode,亦支援簡體中文Windows系統

漢字構形資料庫於2013年4月26日不再更新,代之以小學堂文字學資料庫。該網站查詢介面所採用之字形圖片及字形屬性資訊皆以CC0 1.0通用共享。

參考

  • 漢字構形資料庫 (页面存档备份,存于互联网档案馆),中華民國中央研究院。(繁體中文)
  • 古籍解決缺字問題的方法 (页面存档备份,存于互联网档案馆),中華民國中央研究院。(繁體中文)
  • 〈=en&task=view OSSF::自由軟體鑄造場(Open Source Software Foundry)-「中央研究院漢字部件檢字系統」釋出程式原始碼)[永久失效連結](繁體中文)
  • 小學堂文字學資料庫 (页面存档备份,存于互联网档案馆(繁體中文)

向量組字編輯器

台灣(前易符科技)以構字式研究成果:漢字構形資料庫為基礎,改以Unicode IDS(Ideographic Description Sequence,且是不定長度編碼)實作,成為構形碼,可高效率以遞迴方式合成漢字,英語字母也可組到漢字中,但仍有合成漢字不美觀的問題。2007年single.fnt作者本因漢字構形資料庫著作權問題無法將剎那工坊維護的字形資料庫兼字形檔single.fnt轉為開放文檔,後因漢字構型資料庫更改授權而GFDL化。

參考

  • 開放古籍平台的意義與實作[永久失效連結](繁體中文)
  • (繁體中文)
  • 動態組字技術組成表(繁體中文)
  • 正體中文網[永久失效連結]:介紹動態組字器(繁體中文)
  • 魔法設計的藝術:漢字研究 (页面存档备份,存于互联网档案馆(繁體中文)
  • Planet OrzLab: zhongwen(繁體中文)
  • Planet OrzLab: unicode(繁體中文)

CDL字形描述語言

美國文林公司提出的CDL字形描述語言(字描語,以XML為基礎的構字式)。

參考

漢字組字伺服器「影」

日本京都大學的漢字組字伺服器 (页面存档备份,存于互联网档案馆)」。

意傳科技漢字組建

考慮到漢語的方言字經常需要特殊字形方能顯示,其提供Unicode表意文字序列轉為動態組字的圖檔的工具,使用 Java 撰寫。

參考

  • 和田研フォント日语和田研フォント日語的「和田研字型」條目
  • 日本京都大學的漢字自動生成技術 (页面存档备份,存于互联网档案馆(日語)

相關項目

動態組字, 此條目需要精通或熟悉计算机科学的编者参与及协助编辑, 2010年10月5日, 請邀請適合的人士改善本条目, 更多的細節與詳情請參见討論頁, 另見其他需要计算机科学專家關注的頁面, 是一種汉字在電腦等領域的編碼理論及技術, 拼音文字如英文字母, 一套字型只要製作26個字母和一些標點符號就足夠使用, 但漢字是一種意音文字, 若無數千到數萬個字符數量, 便不足以應付基本的訊息交換, 即便已有數萬個字符, 往往在面對古籍時還有缺字的問題, 這造成漢字無論是製作, 儲存, 使用, 或交流, 成本都遠高於表音文字,. 此條目需要精通或熟悉计算机科学的编者参与及协助编辑 2010年10月5日 請邀請適合的人士改善本条目 更多的細節與詳情請參见討論頁 另見其他需要计算机科学專家關注的頁面 動態組字是一種汉字在電腦等領域的編碼理論及技術 拼音文字如英文字母 一套字型只要製作26個字母和一些標點符號就足夠使用 但漢字是一種意音文字 若無數千到數萬個字符數量 便不足以應付基本的訊息交換 即便已有數萬個字符 往往在面對古籍時還有缺字的問題 這造成漢字無論是製作 儲存 使用 或交流 成本都遠高於表音文字 這對漢字的文化發展非常不利 鑑於此 中國大陸和臺灣都有人在研究 動態組字 技術 這個技術的目的是解除電腦系統對漢字的束縛 作法是 只在記憶體中儲存少量 約數百至一千多 的字根部件 並用程式控制 以遞迴的方式根據部件做即時的 二維組字 顯示到螢幕上 字根 在此就相當於拼音文字的字母 差別只在於字母表音而字根表意 有了動態組字 使用者便可因應各式需求自行造字 再無缺字之虞 此外 組字的過程反向操作 也就是拆字 就可以作漢字理解 也有助於人工智慧 手寫辨識及中文PDA 手機等手持式裝置開發 亦可延長儲存裝置壽命 目录 1 Unicode 1 1 參考 2 倉頡系統 2 1 參考 3 中央研究院漢字部件檢字系統 3 1 參考 4 向量組字編輯器 4 1 參考 5 CDL字形描述語言 5 1 參考 6 漢字組字伺服器 影 7 意傳科技漢字組建 8 參考 9 相關項目Unicode 编辑Unicode標準從3 0開始 開始有表意文字序列 Ideographic Description Sequence IDS 為採用表意文字組合符 Ideographic Description Character IDC 與文字部件的組合 為缺字描述定下一個標準基礎 只要加上解譯描繪的機制 也是一種動態組字的實現 參考 编辑 Unicode 9 0的IDC 页面存档备份 存于互联网档案馆 碼位一覽 http unicode org iuc iuc18 papers b16 ppt 页面存档备份 存于互联网档案馆 Unicode 9 0 IDC IDS技術規格文件 页面存档备份 存于互联网档案馆 倉頡系統 编辑主条目 倉頡系統 這是最早產品化的系統 由早年電腦中文化的開拓者朱邦復所提出 編碼上採文傳碼 是一種定長度編碼 也就是說可造字有限 文傳碼分為兩版 2 byte版的文傳碼 上限是15 bits 三萬二千字 第一個bit為避開ASCII 4 byte版的文傳碼 每個輸入碼佔6 bits共5組 每個6 bits為倉頡輸入碼 26個 5個重複字 1號重複 2號重複 所以理論上有超過一千萬個碼位 該系統精巧快速 但因以8086組合語言寫成 故需要重新解譯才能跨平台使用 組字方式純粹取決於字形外貌 配合倉頡輸入法字根作部件基礎 未必符合文字學原理 如 門 取碼爲 日弓 乃取其首尾字根形狀 日 和 亅 優點 如果拼音文字 可組出符合中文構字原理的任何字 理論上可達一千萬個字 目前只有在香港文化傳信授權製造的特定的嵌入式硬體才有實作此技術 參考 编辑 朱邦復工作室設計的字型產生器 页面存档备份 存于互联网档案馆 繁體中文 中央研究院漢字部件檢字系統 编辑中央研究院漢字部件檢字系統的研發最早可追溯於1972年國立交通大學關於 交大字根系統 的一系列論文和報告 1993年 中央研究院資訊科學研究所中由謝清俊院士及莊德明助技師所帶領的文獻處理實驗室 页面存档备份 存于互联网档案馆 沿用 交大字根系統 的方法 經年整理各代古文 提出構字式 基於Big5 的作法 整理出各代文字的部件資料庫 分析所有漢字在文字學上的合理組成 進行重作改造 進而建立漢字構形資料庫 2008年更名為中央研究院漢字部件檢字系統 程式部份改以GPL 3 0發佈 資料部份則改以GFDL 1 2及CC BY SA 2 5 TW發佈 作為整體軟體專案時則以GPL 3 0發佈 最新版本為2 7 目前中研院正開發3 0版 新版的中文字碼將改用Unicode 亦支援簡體中文Windows系統 漢字構形資料庫於2013年4月26日不再更新 代之以小學堂文字學資料庫 該網站查詢介面所採用之字形圖片及字形屬性資訊皆以CC0 1 0通用共享 參考 编辑 漢字構形資料庫 页面存档备份 存于互联网档案馆 中華民國中央研究院 繁體中文 古籍解決缺字問題的方法 页面存档备份 存于互联网档案馆 中華民國中央研究院 繁體中文 en amp task view OSSF 自由軟體鑄造場 Open Source Software Foundry 中央研究院漢字部件檢字系統 釋出程式原始碼 永久失效連結 繁體中文 小學堂文字學資料庫 页面存档备份 存于互联网档案馆 繁體中文 向量組字編輯器 编辑台灣剎那搜尋工坊 前易符科技 以構字式研究成果 漢字構形資料庫為基礎 改以Unicode IDS Ideographic Description Sequence 且是不定長度編碼 實作 成為構形碼 可高效率以遞迴方式合成漢字 英語字母也可組到漢字中 但仍有合成漢字不美觀的問題 2007年single fnt作者本因漢字構形資料庫著作權問題無法將剎那工坊維護的字形資料庫兼字形檔single fnt轉為開放文檔 後因漢字構型資料庫更改授權而GFDL化 參考 编辑 開放古籍平台的意義與實作 永久失效連結 繁體中文 剎那工作室實作的無限組字編輯器解說 繁體中文 動態組字技術組成表 繁體中文 動態組字函式庫專案 永久失效連結 繁體中文 正體中文網 永久失效連結 介紹動態組字器 繁體中文 魔法設計的藝術 漢字研究 页面存档备份 存于互联网档案馆 繁體中文 Planet OrzLab zhongwen 繁體中文 Planet OrzLab unicode 繁體中文 CDL字形描述語言 编辑美國文林公司提出的CDL字形描述語言 字描語 以XML為基礎的構字式 參考 编辑 美國文林公司 页面存档备份 存于互联网档案馆 英文 漢字組字伺服器 影 编辑日本京都大學的漢字組字伺服器 影 页面存档备份 存于互联网档案馆 意傳科技漢字組建 编辑考慮到漢語的方言字經常需要特殊字形方能顯示 其提供Unicode表意文字序列轉為動態組字的圖檔的工具 使用 Java 撰寫 GitHub 版本庫 页面存档备份 存于互联网档案馆 展示網站 页面存档备份 存于互联网档案馆 參考 编辑和田研フォント 日语 和田研フォント 日語的 和田研字型 條目 日本京都大學的漢字自動生成技術 页面存档备份 存于互联网档案馆 日語 相關項目 编辑字元編碼 漢字部件 字根 合字 組合字符 漢字描述語言 取自 https zh wikipedia org w index php title 動態組字 amp oldid 74532536, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。