fbpx
维基百科

統一碼定序演算法

統一碼定序演算法(英語:Unicode collation algorithm,縮寫:UCA)是統一碼技术报告 #10 中定义的一种算法,它是一种可自定义的方法。對任何以統一碼表示的字符串文本,不論是使用哪種文字语言,都可為其生成二进制键。這些鍵可以逐字节且有效地比對,從而可以根據語言規則為他們定序或排序。這個過程中,還提供可以忽略大小写、重音等的选项。

統一碼技术报告 #10 还定義了默认統一碼定序元素表(英語:Default Unicode Collation Element Table,縮寫:DUCET)。此文件定義了預設的排列顺序。 DUCET 可针对不同语言进行定制。可以在通用當地數據儲存庫(英語:Common Locale Data Repository,縮寫:CLDR)中找到一些此类自定义。

國際統一碼部件(ICU)中包含了 UCA 的开源實作件。 ICU 支持裁剪,来自 CLDR 的整理裁剪包含在 ICU 中。剪裁效果和许多语言特定的剪裁效果显示在在线ICU 区域设置浏览器中。

目標問題 编辑

不同語言及文化,可能使用不同的排序方式,對相同的字符,德國人、法國人、瑞典人使用不同的方式排序。不同的應用,也可能使用不同的排序,譬如字典、電話簿和索引目錄。對於非字母文字,如東亞表意文字,排序也可能根據聲音或外形。此外,排序也可能根據習慣,如忽略標點符號、大寫在小寫前(或反過來)。

語言 瑞典 z < ö
德國 ö < z
應用 德國字典 of < öf
德國電話簿 öf < of
使用者習慣 大寫優先 A < a
小寫優先 a < A


多層級比較 编辑

統一碼定序演算法歸納出了多層級的比較方式。

等級 描述 例子
L1 基本 role < roles < rule
L2 重音符 role < rôle < roles
L3 大小寫或變體 role < Role < rôle
L4 標點符號 role < “role” < Role
Ln role < ro□le < “role”

另見 编辑

外部链接 编辑

  • 統一碼定序演算法 (页面存档备份,存于互联网档案馆):統一碼技术标准 #10
  • Mimer SQL Unicode 归类图表 (页面存档备份,存于互联网档案馆

工具 编辑

  • ICU Locale Explorer (页面存档备份,存于互联网档案馆) [链接于 2021-10-10 断开] 使用國際統一碼部件在線展示統一碼定序演算法
  • 截至 2021-10-10 仍在ICU 定序演示 (页面存档备份,存于互联网档案馆
  • msort (页面存档备份,存于互联网档案馆)一种排序程序,它在定义排序规则和提取键方面提供了不同寻常的灵活性。

統一碼定序演算法, 英語, unicode, collation, algorithm, 縮寫, 是統一碼技术报告, 中定义的一种算法, 它是一种可自定义的方法, 對任何以統一碼表示的字符串文本, 不論是使用哪種文字和语言, 都可為其生成二进制键, 這些鍵可以逐字节且有效地比對, 從而可以根據語言規則為他們定序或排序, 這個過程中, 還提供可以忽略大小写, 重音等的选项, 統一碼技术报告, 还定義了默认統一碼定序元素表, 英語, default, unicode, collation, element, table. 統一碼定序演算法 英語 Unicode collation algorithm 縮寫 UCA 是統一碼技术报告 10 中定义的一种算法 它是一种可自定义的方法 對任何以統一碼表示的字符串文本 不論是使用哪種文字和语言 都可為其生成二进制键 這些鍵可以逐字节且有效地比對 從而可以根據語言規則為他們定序或排序 這個過程中 還提供可以忽略大小写 重音等的选项 統一碼技术报告 10 还定義了默认統一碼定序元素表 英語 Default Unicode Collation Element Table 縮寫 DUCET 此文件定義了預設的排列顺序 DUCET 可针对不同语言进行定制 可以在通用當地數據儲存庫 英語 Common Locale Data Repository 縮寫 CLDR 中找到一些此类自定义 國際統一碼部件 ICU 中包含了 UCA 的开源實作件 ICU 支持裁剪 来自 CLDR 的整理裁剪包含在 ICU 中 剪裁效果和许多语言特定的剪裁效果显示在在线ICU 区域设置浏览器中 目录 1 目標問題 1 1 多層級比較 2 另見 3 外部链接 3 1 工具目標問題 编辑不同語言及文化 可能使用不同的排序方式 對相同的字符 德國人 法國人 瑞典人使用不同的方式排序 不同的應用 也可能使用不同的排序 譬如字典 電話簿和索引目錄 對於非字母文字 如東亞表意文字 排序也可能根據聲音或外形 此外 排序也可能根據習慣 如忽略標點符號 大寫在小寫前 或反過來 語言 瑞典 z lt o德國 o lt z應用 德國字典 of lt of德國電話簿 of lt of使用者習慣 大寫優先 A lt a小寫優先 a lt A 多層級比較 编辑 統一碼定序演算法歸納出了多層級的比較方式 等級 描述 例子L1 基本 role lt roles lt ruleL2 重音符 role lt role lt rolesL3 大小寫或變體 role lt Role lt roleL4 標點符號 role lt role lt RoleLn role lt ro le lt role 另見 编辑Collation ISO IEC 14651 欧洲订购规则 EOR 通用當地數據儲存庫 CLDR 外部链接 编辑統一碼定序演算法 页面存档备份 存于互联网档案馆 統一碼技术标准 10 Mimer SQL Unicode 归类图表 页面存档备份 存于互联网档案馆 工具 编辑 ICU Locale Explorer 页面存档备份 存于互联网档案馆 链接于 2021 10 10 断开 使用國際統一碼部件在線展示統一碼定序演算法 截至 2021 10 10 仍在ICU 定序演示 页面存档备份 存于互联网档案馆 msort 页面存档备份 存于互联网档案馆 一种排序程序 它在定义排序规则和提取键方面提供了不同寻常的灵活性 取自 https zh wikipedia org w index php title 統一碼定序演算法 amp oldid 78430861, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。