fbpx
维基百科

中文資訊交換碼

中文資訊交換碼Chinese Character Code for Information Interchange,簡稱CCCII),又名全漢字標準交換碼[1],是由中華民國政府發展的字符集編碼方案,由獲得中研院中美科學學術合作委員會與文建會(後升格為文化部)贊助的「國字整理小組」(全名為:資訊應用國字整理小組)所提出[2]。開發目的是將其作為中文交換碼,使中文資訊交換更加便利。

CCCII / EACC
漢字圓在CCCII中的位置和字型,包含了正體字簡體字異體字日本漢字的寫法
语言漢語日語韓語
标准MARC-8英语MARC-8機讀編目格式標準)、ANSI/NISO Z39.64
现状主要為圖書館系統使用
分类基於ISO/IEC 2022結構用於中日韓文字的三位元組字元集(TBCS)
機讀編目格式標準的日、阿拉伯、中、韓、波斯、希伯來、意第緒文字(JACKPHY )

此交換碼每個字用三個位元組存儲,在節約空間方面不如Big5,又不像CNS 11643成為官方標準,所以未被電腦業界廣泛採納[3]。香港各大學圖書館在2003年由舊有的CCCII系統換成UTF-8[4][5]。故現僅臺灣和美國仍在使用,且只用於大學圖書館線上目錄檢索系統

簡介

1979年,加州史丹佛大學召開一場籌劃東亞圖書館自動化的會議,希望訂定中文交換碼的標準作為自動化之根據,以解決使用電腦處理東亞語文資料的問題。那時的漢字碼標準只有日本產業規格訂定的JIS C6226,但由於日本漢字的數目、字型皆與中文有相當程度的差異,難以作為代表,經臺灣和美國東亞圖書館華裔與會者強力反對後,決定先擱置決議,由臺灣代表謝清俊在次年三月亞洲研究學會年會,提出臺灣方面的漢字編碼方案互作比較[6][1]

謝清俊教授返國後,上書政務委員李國鼎國科會中研院中美科學學術合作委員會(簡稱中美會)等單位,集合國內一批文字學家、圖書館學家及電腦科學家,組成「中文資訊處理研究用字小組」(1985年其國字整理組從中美會轉至文建會,改名為資訊應用國字整理小組),共同整理中文文字,並解決中文資訊處理的技術問題。其中,字碼編定的部份由謝清俊、張仲陶、楊鍵樵、黃克東教授負責,文字審查工作則有潘重規、周駿富、周何、何佑森、金祥恆等教授參與,並由王振鵠張鼎鍾等教授擔任中文資訊交換碼審查小組的成員[7]

臺灣於次屆亞洲學會年會上,提出共4,808字的「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」在1981年完成第二批,包括17,032個正體字、11,517個異體字;1987年再發表第三批,包括20,583個正體字。前後二次共計擴編至53,940個漢字字碼,並完成64×64,32×32的機讀字型;此外,為了方便電腦上的文字處理,又編製了「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼[6]

CCCII後來獲得美國國會圖書館認可,稱為東亞文字碼(East Asian Character Code,EACC),並於1989年納入美國國家標準(編號:ANSI/NISO Z39.64)。CCCII並已被OCLC和RLIN(Research Libraries Information Network)用作中日韓文的書目字碼標準[8]

「國字整理小組」從1979至1989十年間,共計整理、蒐集了75,684個漢字(正體字44,167、異體字31,517)[7]。隨著張仲陶教授在1997年去世,以及謝清俊教授將發展方向轉往漢字構形資料庫,CCCII已停止維護、更新[9][10]

編碼結構

該編碼以三個位元組來代表一個中文字,每位元組為7位元,並根據ISO 2022規格以94×94×94的編碼空間安放字符,最多可收納830,584個。

一個94×94的編碼空間稱為面(Plane)。CCCII共有94個。以6個組合成為1個層(Layer)。因此CCCII共有16個,除第16層僅含4面外,其餘各層均含有6個面(即15×6+4=94)。這16個層相疊,形成一個向下延伸的三度空間,由此形成關聯。

第1個層放置正體字(正體字按常用、備用、罕用的順序分群並依序排列,各字群再按先部首、次筆畫數、最後筆順的次序排列);第2至第13個層,放置異體字,其中第2層專放簡體字,第13層放置日文漢字。這樣的三度空間設計使檢索某一漢字的異體字變得容易,如:三字的後兩個位元組是一樣的[11]

另見

注释

  1. ^ 1.0 1.1 中文字集字碼簡介/ 編目組 - 東吳大學圖書館 (PDF). [2022-12-18]. (原始内容 (PDF)于2022-12-26). 
  2. ^ 謝清俊; 黃克東. 國字整理小組十年. 資訊應用國字整理小組. 1989: 29-34. 
  3. ^ 多管齊下,徹底解決罕用字問題. ithome. [2022-12-20]. (原始内容于2022-12-20). 
  4. ^ (英文) Unicode Project(Library, City University of Hong Kong) (页面存档备份,存于互联网档案馆
  5. ^ (英文) Unicode Migration(Library, Chinese University of Hong Kong) (页面存档备份,存于互联网档案馆
  6. ^ 6.0 6.1 認識全字庫- 中文碼介紹. [2022-12-18]. (原始内容于2021-05-14). 
  7. ^ 7.0 7.1 宋建成. 國家圖書館故事. 卷二, 館藏發展與整理. 2020: 113 [2022-12-18]. (原始内容于2022-12-18). 
  8. ^ 曾世熊. 中文資訊交換碼 Chinese Character Code for Information Interchange,簡稱CCCII. 圖書館學與資訊科學大辭典. [2022-12-18]. (原始内容于2022-12-18). 
  9. ^ Ken Lunde. CJKV Information Processing. O'Reilly Media. 2009: 123 [2022-12-20]. (原始内容于2022-12-20). 
  10. ^ 中央研究院資訊科學研究所 20 週年慶特刊 謝清俊先生之簡介與訪談簡要. [2022-12-20]. (原始内容于2020-10-20). 
  11. ^ 來源參考:(中文)中文資訊交換碼,國字計劃小組,主編人張仲陶

外部連結

  • 認識全字庫- 中文碼介紹 【 CCCII 碼 】 (页面存档备份,存于互联网档案馆
  • 《圖書館學與資訊科學大辭典》 中文資訊交換碼 (页面存档备份,存于互联网档案馆
  • 美國國會圖書電腦編目中日韓文字集 (页面存档备份,存于互联网档案馆
  • 國家圖書館故事. 卷二, 館藏發展與整理 第四章〈館藏整理自動化〉 第一節 編定中文資訊交換碼 (页面存档备份,存于互联网档案馆
  • 台灣光華雜誌 - 中文電腦標準交換碼公佈
  • 謝清俊先生之簡介與訪談簡要(出自《中央研究院資訊科學研究所二十週年慶特刊》) (页面存档备份,存于互联网档案馆

中文資訊交換碼, chinese, character, code, information, interchange, 簡稱cccii, 又名全漢字標準交換碼, 是由中華民國政府發展的字符集和編碼方案, 由獲得中研院中美科學學術合作委員會與文建會, 後升格為文化部, 贊助的, 國字整理小組, 全名為, 資訊應用國字整理小組, 所提出, 開發目的是將其作為中文交換碼, 使中文資訊交換更加便利, cccii, eacc漢字圓在cccii中的位置和字型, 包含了正體字, 簡體字, 異體字, 日本漢字的寫法语言漢語, 日. 中文資訊交換碼 Chinese Character Code for Information Interchange 簡稱CCCII 又名全漢字標準交換碼 1 是由中華民國政府發展的字符集和編碼方案 由獲得中研院中美科學學術合作委員會與文建會 後升格為文化部 贊助的 國字整理小組 全名為 資訊應用國字整理小組 所提出 2 開發目的是將其作為中文交換碼 使中文資訊交換更加便利 CCCII EACC漢字圓在CCCII中的位置和字型 包含了正體字 簡體字 異體字 日本漢字的寫法语言漢語 日語 韓語标准MARC 8 英语 MARC 8 機讀編目格式標準 ANSI NISO Z39 64现状主要為圖書館系統使用分类基於ISO IEC 2022結構用於中日韓文字的三位元組字元集 TBCS 機讀編目格式標準的日 阿拉伯 中 韓 波斯 希伯來 意第緒文字 JACKPHY 查论编此交換碼每個字用三個位元組存儲 在節約空間方面不如Big5 又不像CNS 11643成為官方標準 所以未被電腦業界廣泛採納 3 香港各大學圖書館在2003年由舊有的CCCII系統換成UTF 8 4 5 故現僅臺灣和美國仍在使用 且只用於大學圖書館的線上目錄檢索系統 目录 1 簡介 2 編碼結構 3 另見 4 注释 5 外部連結簡介 编辑1979年 加州史丹佛大學召開一場籌劃東亞圖書館自動化的會議 希望訂定中文交換碼的標準作為自動化之根據 以解決使用電腦處理東亞語文資料的問題 那時的漢字碼標準只有日本產業規格訂定的JIS C6226 但由於日本漢字的數目 字型皆與中文有相當程度的差異 難以作為代表 經臺灣和美國東亞圖書館華裔與會者強力反對後 決定先擱置決議 由臺灣代表謝清俊在次年三月亞洲研究學會年會 提出臺灣方面的漢字編碼方案互作比較 6 1 謝清俊教授返國後 上書政務委員李國鼎及國科會 中研院中美科學學術合作委員會 簡稱中美會 等單位 集合國內一批文字學家 圖書館學家及電腦科學家 組成 中文資訊處理研究用字小組 1985年其國字整理組從中美會轉至文建會 改名為資訊應用國字整理小組 共同整理中文文字 並解決中文資訊處理的技術問題 其中 字碼編定的部份由謝清俊 張仲陶 楊鍵樵 黃克東教授負責 文字審查工作則有潘重規 周駿富 周何 何佑森 金祥恆等教授參與 並由王振鵠 張鼎鍾等教授擔任中文資訊交換碼審查小組的成員 7 臺灣於次屆亞洲學會年會上 提出共4 808字的 中文資訊交換碼 中文資訊交換碼 的架構為美方接受 但要求擴大編碼字集 國字整理小組 在1981年完成第二批 包括17 032個正體字 11 517個異體字 1987年再發表第三批 包括20 583個正體字 前後二次共計擴編至53 940個漢字字碼 並完成64 64 32 32的機讀字型 此外 為了方便電腦上的文字處理 又編製了 中國文字資料庫 Chinese Character Database 簡稱CCDB 其中列出每個字屬性如部首 筆畫 讀音以及各種對應和輸入碼 6 CCCII後來獲得美國國會圖書館認可 稱為東亞文字碼 East Asian Character Code EACC 並於1989年納入美國國家標準 編號 ANSI NISO Z39 64 CCCII並已被OCLC和RLIN Research Libraries Information Network 用作中日韓文的書目字碼標準 8 國字整理小組 從1979至1989十年間 共計整理 蒐集了75 684個漢字 正體字44 167 異體字31 517 7 隨著張仲陶教授在1997年去世 以及謝清俊教授將發展方向轉往漢字構形資料庫 CCCII已停止維護 更新 9 10 編碼結構 编辑該編碼以三個位元組來代表一個中文字 每位元組為7位元 並根據ISO 2022規格以94 94 94的編碼空間安放字符 最多可收納830 584個 一個94 94的編碼空間稱為面 Plane CCCII共有94個面 以6個面組合成為1個層 Layer 因此CCCII共有16個層 除第16層僅含4面外 其餘各層均含有6個面 即15 6 4 94 這16個層相疊 形成一個向下延伸的三度空間 由此形成關聯 第1個層放置正體字 正體字按常用 備用 罕用的順序分群並依序排列 各字群再按先部首 次筆畫數 最後筆順的次序排列 第2至第13個層 放置異體字 其中第2層專放簡體字 第13層放置日文漢字 這樣的三度空間設計使檢索某一漢字的異體字變得容易 如 強 强 彊三字的後兩個位元組是一樣的 11 另見 编辑Big5 CNS 11643注释 编辑 1 0 1 1 中文字集字碼簡介 編目組 東吳大學圖書館 PDF 2022 12 18 原始内容存档 PDF 于2022 12 26 謝清俊 黃克東 國字整理小組十年 資訊應用國字整理小組 1989 29 34 多管齊下 徹底解決罕用字問題 ithome 2022 12 20 原始内容存档于2022 12 20 英文 Unicode Project Library City University of Hong Kong 页面存档备份 存于互联网档案馆 英文 Unicode Migration Library Chinese University of Hong Kong 页面存档备份 存于互联网档案馆 6 0 6 1 認識全字庫 中文碼介紹 2022 12 18 原始内容存档于2021 05 14 7 0 7 1 宋建成 國家圖書館故事 卷二 館藏發展與整理 2020 113 2022 12 18 原始内容存档于2022 12 18 曾世熊 中文資訊交換碼 Chinese Character Code for Information Interchange 簡稱CCCII 圖書館學與資訊科學大辭典 2022 12 18 原始内容存档于2022 12 18 Ken Lunde CJKV Information Processing O Reilly Media 2009 123 2022 12 20 原始内容存档于2022 12 20 中央研究院資訊科學研究所 20 週年慶特刊 謝清俊先生之簡介與訪談簡要 2022 12 20 原始内容存档于2020 10 20 來源參考 中文 中文資訊交換碼 國字計劃小組 主編人張仲陶外部連結 编辑認識全字庫 中文碼介紹 CCCII 碼 页面存档备份 存于互联网档案馆 圖書館學與資訊科學大辭典 中文資訊交換碼 页面存档备份 存于互联网档案馆 美國國會圖書電腦編目中日韓文字集 页面存档备份 存于互联网档案馆 國家圖書館故事 卷二 館藏發展與整理 第四章 館藏整理自動化 第一節 編定中文資訊交換碼 页面存档备份 存于互联网档案馆 台灣光華雜誌 中文電腦標準交換碼公佈 謝清俊先生之簡介與訪談簡要 出自 中央研究院資訊科學研究所二十週年慶特刊 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 中文資訊交換碼 amp oldid 75890220, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。