交叉熵

在信息论中，基于相同事件测度的两个概率分布 $p$ 和 $q$ 的交叉熵（英語：Cross entropy）是指，当基于一个“非自然”（相对于“真实”分布 $p$ 而言）的概率分布 $q$ 进行编码时，在事件集合中唯一标识一个事件所需要的平均比特数（bit）。

给定两个概率分布 $p$ 和 $q$ ， $p$ 相对于 $q$ 的交叉熵定义为：

H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\|q),\!

其中 $H(p)$ 是 $p$ 的熵， $D_{\mathrm {KL} }(p\|q)$ 是从 $p$ 与 $q$ 的KL散度(也被称为p相对于q的相对熵)。

对于离散分布 $p$ 和 $q$ ，这意味着：

H(p,q)=-\sum _{x}p(x)\,\log q(x).\!

对于连续分布也是类似的。我们假设 $p$ 和 $q$ 在测度 $r$ 上是绝对连续的(通常 $r$ 是Lebesgue measure on a Borel σ-algebra)。设 $P$ 和 $Q$ 分别为 $p$ 的 $q$ 在测度 $r$ 上概率密度函数。则

-\int _{X}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q].\!

源起编辑

在信息论中, 以直接可解编码模式通过值 $x_{i}$ 编码一个信息片段，使其能在所有可能的 $X$ 集合中唯一标识该信息片段，Kraft–McMillan theorem确保这一过程可以被看作一种 $X$ 上的隐式概率分布 $q(x_{i})=2^{-l_{i}}$ ，从而使得 $l_{i}$ 是 $x_{i}$ 的编码位长度。因此, 交叉熵可以看作每个信息片段在错误分布 $Q$ 下的期望编码位长度，而信息实际分布为 $P$ 。这就是期望 ${E}_{p}$ 是基于 $P$ 而不是 $Q$ 的原因。

H(p,q)=\operatorname {E} _{p}[l_{i}]=\operatorname {E} _{p}\left[\log {\frac {1}{q(x_{i})}}\right]

H(p,q)=\sum _{x_{i}}p(x_{i})\,\log {\frac {1}{q(x_{i})}}\!

H(p,q)=-\sum _{x}p(x)\,\log q(x).\!

估计编辑

在大多数情况下，我们需要在不知道分布 $p$ 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 $T$ 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 $p$ 是语料中词汇的真实分布，而 $q$ 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的，我们不能直接计算交叉熵。在这种情况下，我们可以通过下式来估计交叉熵:

H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})

$N$ 是测试集大小， $q(x)$ 是在训练集上估计的事件 $x$ 发生的概率。我们假设训练集是从 $p(x)$ 的真实采样，则此方法获得的是真实交叉熵的蒙特卡洛估计。

參考資料编辑

de Boer, Pieter-Tjerk; Kroese, Dirk P.; Mannor, Shie; Rubinstein, Reuven Y. A Tutorial on the Cross-Entropy Method (PDF) (pdf) 134 (1). February 2005: 19–67 [2018-02-02]. ISSN 1572-9338. doi:10.1007/s10479-005-5724-z. （原始内容 (PDF)于2016-10-26）. |journal=被忽略 (帮助)

www.wiki2.zh-cn.nina.az

交叉熵

源起编辑

估计编辑

參考資料编辑

2007年中国反卫星导弹试验

2007年中國國民黨主席補選

2007年中國大獎賽

2007年亞洲盃外圍賽

2007年亞洲舉重錦標賽

2007年亞足聯主席盃

2007年亞足聯亞洲盃D組

2007年企業足球聯賽

2007年德國聯賽盃

2007年巴西大奖赛

谢文敏

谢文 (药理学家)

谢文·根多

谢昀杉

谢晖

文章

源起 编辑

估计 编辑

參考資料 编辑

文章

源起编辑

估计编辑

參考資料编辑