fbpx
维基百科

交叉熵

信息论中,基于相同事件测度的两个概率分布交叉熵(英語:Cross entropy)是指,当基于一个“非自然”(相对于“真实”分布而言)的概率分布进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数(bit)。

给定两个概率分布相对于的交叉熵定义为:

其中是从KL散度(也被称为p相对于q相对熵)。

对于离散分布,这意味着:

对于连续分布也是类似的。我们假设测度 上是绝对连续的(通常 Lebesgue measure on a Borel σ-algebra)。设分别为测度 上概率密度函数。则

源起 编辑

信息论中, 以直接可解编码模式通过值 编码一个信息片段,使其能在所有可能的 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 上的隐式概率分布 ,从而使得  的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 下的期望编码位长度,而信息实际分布为 。这就是期望 是基于 而不是 的原因。

 
 
 

估计 编辑

在大多数情况下,我们需要在不知道分布 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 是语料中词汇的真实分布,而 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

 

 是测试集大小, 是在训练集上估计的事件 发生的概率。我们假设训练集是从 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

參考資料 编辑

  • de Boer, Pieter-Tjerk; Kroese, Dirk P.; Mannor, Shie; Rubinstein, Reuven Y. A Tutorial on the Cross-Entropy Method (PDF) (pdf) 134 (1). February 2005: 19–67 [2018-02-02]. ISSN 1572-9338. doi:10.1007/s10479-005-5724-z. (原始内容 (PDF)于2016-10-26).  |journal=被忽略 (帮助)

交叉熵, 此條目需要精通或熟悉相关主题的编者参与及协助编辑, 2018年2月2日, 請邀請適合的人士改善本条目, 更多的細節與詳情請參见討論頁, 在信息论中, 基于相同事件测度的两个概率分布p, displaystyle, 和q, displaystyle, 英語, cross, entropy, 是指, 当基于一个, 非自然, 相对于, 真实, 分布p, displaystyle, 而言, 的概率分布q, displaystyle, 进行编码时, 在事件集合中唯一标识一个事件所需要的平均比特数, 给定两个概率分布. 此條目需要精通或熟悉相关主题的编者参与及协助编辑 2018年2月2日 請邀請適合的人士改善本条目 更多的細節與詳情請參见討論頁 在信息论中 基于相同事件测度的两个概率分布p displaystyle p 和q displaystyle q 的交叉熵 英語 Cross entropy 是指 当基于一个 非自然 相对于 真实 分布p displaystyle p 而言 的概率分布q displaystyle q 进行编码时 在事件集合中唯一标识一个事件所需要的平均比特数 bit 给定两个概率分布p displaystyle p 和q displaystyle q p displaystyle p 相对于q displaystyle q 的交叉熵定义为 H p q E p log q H p D K L p q displaystyle H p q operatorname E p log q H p D mathrm KL p q 其中H p displaystyle H p 是p displaystyle p 的熵 D K L p q displaystyle D mathrm KL p q 是从p displaystyle p 与q displaystyle q 的KL散度 也被称为p相对于q的相对熵 对于离散分布p displaystyle p 和q displaystyle q 这意味着 H p q x p x log q x displaystyle H p q sum x p x log q x 对于连续分布也是类似的 我们假设p displaystyle p 和q displaystyle q 在测度 r displaystyle r 上是绝对连续的 通常 r displaystyle r 是Lebesgue measure on a Borel s algebra 设P displaystyle P 和Q displaystyle Q 分别为p displaystyle p 的q displaystyle q 在测度 r displaystyle r 上概率密度函数 则 X P x log Q x d r x E p log Q displaystyle int X P x log Q x dr x operatorname E p log Q 源起 编辑在信息论中 以直接可解编码模式通过值x i displaystyle x i nbsp 编码一个信息片段 使其能在所有可能的X displaystyle X nbsp 集合中唯一标识该信息片段 Kraft McMillan theorem确保这一过程可以被看作一种X displaystyle X nbsp 上的隐式概率分布q x i 2 l i displaystyle q x i 2 l i nbsp 从而使得l i displaystyle l i nbsp 是x i displaystyle x i nbsp 的编码位长度 因此 交叉熵可以看作每个信息片段在错误分布Q displaystyle Q nbsp 下的期望编码位长度 而信息实际分布为P displaystyle P nbsp 这就是期望E p displaystyle E p nbsp 是基于P displaystyle P nbsp 而不是Q displaystyle Q nbsp 的原因 H p q E p l i E p log 1 q x i displaystyle H p q operatorname E p l i operatorname E p left log frac 1 q x i right nbsp H p q x i p x i log 1 q x i displaystyle H p q sum x i p x i log frac 1 q x i nbsp H p q x p x log q x displaystyle H p q sum x p x log q x nbsp 估计 编辑在大多数情况下 我们需要在不知道分布p displaystyle p nbsp 的情况下计算其交叉熵 例如在语言模型中 我们基于训练集T displaystyle T nbsp 创建了一个语言模型 而在测试集合上通过其交叉熵来评估该模型的准确率 p displaystyle p nbsp 是语料中词汇的真实分布 而q displaystyle q nbsp 是我们获得的语言模型预测的词汇分布 由于真实分布是未知的 我们不能直接计算交叉熵 在这种情况下 我们可以通过下式来估计交叉熵 H T q i 1 N 1 N log 2 q x i displaystyle H T q sum i 1 N frac 1 N log 2 q x i nbsp N displaystyle N nbsp 是测试集大小 q x displaystyle q x nbsp 是在训练集上估计的事件x displaystyle x nbsp 发生的概率 我们假设训练集是从p x displaystyle p x nbsp 的真实采样 则此方法获得的是真实交叉熵的蒙特卡洛估计 參考資料 编辑de Boer Pieter Tjerk Kroese Dirk P Mannor Shie Rubinstein Reuven Y A Tutorial on the Cross Entropy Method PDF pdf 134 1 February 2005 19 67 2018 02 02 ISSN 1572 9338 doi 10 1007 s10479 005 5724 z 原始内容存档 PDF 于2016 10 26 journal 被忽略 帮助 取自 https zh wikipedia org w index php title 交叉熵 amp oldid 76788632, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。