fbpx
维基百科

双字母组

双字母组或称二元语法(英語:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。

簡介 编辑

在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:

 

即,在给定前面一个词 的前提下,出现某个词 的概率 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 被出现前一个词 的概率除。

Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。

Head word bigrams是具有明确依赖关系的gappy bigrams。

应用 编辑

这种组被用在最成功的一种语音识别[1]語言模型中。它们是N字母组的一种特例。

本术语也被用在密碼學里,在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析

英语里双字母组的出现频率 编辑

据小英语语料库的统计结果,最常见的字母双字母的频率是:[2]

th 1.52% en 0.55% ng 0.18% he 1.28% ed 0.53% of 0.16% in 0.94% to 0.52% al 0.09% er 0.94% it 0.50% de 0.09% an 0.82% ou 0.50% se 0.08% re 0.68% ea 0.47% le 0.08% nd 0.63% hi 0.46% sa 0.06% at 0.59% is 0.46% si 0.05% on 0.57% or 0.43% ar 0.04% nt 0.56% ti 0.34% ve 0.04% ha 0.56% as 0.33% ra 0.04% es 0.56% te 0.27% ld 0.02% st 0.55% et 0.19% ur 0.02% 

可以获得从更大语料库中提取的完整双字母频率。[3]

参考文献 编辑

  1. ^ Collins, Michael John. . Association for Computational Linguistics: 184–191. 1996-06-24 [2018-10-09]. doi:10.3115/981863.981888. (原始内容存档于2018-10-08). 
  2. ^ Cornell Math Explorer's Project – Substitution Ciphers. [2011-03-22]. (原始内容于2011-06-05). 
  3. ^ Jones, Michael N; D J K Mewhort. Case-sensitive letter and bigram frequency counts from large-scale English corpora. Behavior Research Methods, Instruments, and Computers. August 2004, 36 (3): 388–396. ISSN 0743-3808. PMID 15641428. 

参见 编辑

双字母组, 此條目翻譯品質不佳, 翻譯者可能不熟悉中文或原文語言, 也可能使用了機器翻譯, 請協助翻譯本條目或重新編寫, 并注意避免翻译腔的问题, 明顯拙劣的翻譯請改掛, href, template, html, class, redirect, title, template, href, wikipedia, html, class, redirect, title, wikipedia, 提交刪除, 或称二元语法, 英語, bigrams, 或称digrams, 作为统计分析文本使用非常广泛, 它是由两个字. 此條目翻譯品質不佳 翻譯者可能不熟悉中文或原文語言 也可能使用了機器翻譯 請協助翻譯本條目或重新編寫 并注意避免翻译腔的问题 明顯拙劣的翻譯請改掛 a href Template D html class mw redirect title Template D d a a href Wikipedia CSD html G13 class mw redirect title Wikipedia CSD G13 a 提交刪除 双字母组或称二元语法 英語 bigrams 或称digrams 作为统计分析文本使用非常广泛 它是由两个字母 或者两个音节 或者两个词构成的双字母组 目录 1 簡介 2 应用 3 英语里双字母组的出现频率 4 参考文献 5 参见簡介 编辑在给定一个前导词情况下 双字母组可帮助计算出现某个词的概率 这是条件概率应用场景 P W n W n 1 P W n 1 W n P W n 1 displaystyle P W n W n 1 P W n 1 W n over P W n 1 nbsp 即 在给定前面一个词W n 1 displaystyle W n 1 nbsp 的前提下 出现某个词W n displaystyle W n nbsp 的概率P W n displaystyle P W n nbsp 与他们构成的双字母组的概率一致 换言之 两个词同时出现的概率P W n 1 W n displaystyle P W n 1 W n nbsp 被出现前一个词W n 1 displaystyle W n 1 nbsp 的概率除 Gappy bigrams或称skipping bigrams是允许有跳空的词对组 也许想避免把词连接起来 或者想允许某种模拟的依赖 如依赖语法 Head word bigrams是具有明确依赖关系的gappy bigrams 应用 编辑这种组被用在最成功的一种语音识别 1 的 語言模型中 它们是N字母组的一种特例 本术语也被用在密碼學里 在此领域 试图破解密码电文有时二元语法频率攻击会被用到 参考频率分析 英语里双字母组的出现频率 编辑据小英语语料库的统计结果 最常见的字母双字母的频率是 2 th 1 52 en 0 55 ng 0 18 he 1 28 ed 0 53 of 0 16 in 0 94 to 0 52 al 0 09 er 0 94 it 0 50 de 0 09 an 0 82 ou 0 50 se 0 08 re 0 68 ea 0 47 le 0 08 nd 0 63 hi 0 46 sa 0 06 at 0 59 is 0 46 si 0 05 on 0 57 or 0 43 ar 0 04 nt 0 56 ti 0 34 ve 0 04 ha 0 56 as 0 33 ra 0 04 es 0 56 te 0 27 ld 0 02 st 0 55 et 0 19 ur 0 02 可以获得从更大语料库中提取的完整双字母频率 3 参考文献 编辑 Collins Michael John A new statistical parser based on bigram lexical dependencies Association for Computational Linguistics 184 191 1996 06 24 2018 10 09 doi 10 3115 981863 981888 原始内容存档于2018 10 08 Cornell Math Explorer s Project Substitution Ciphers 2011 03 22 原始内容存档于2011 06 05 Jones Michael N D J K Mewhort Case sensitive letter and bigram frequency counts from large scale English corpora Behavior Research Methods Instruments and Computers August 2004 36 3 388 396 ISSN 0743 3808 PMID 15641428 参见 编辑二合字母 N元语法 字母频率 Dice系数 取自 https zh wikipedia org w index php title 双字母组 amp oldid 66091659, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。