fbpx
维基百科

互信息

概率论信息论中,两个随机变量互信息(mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的紧密相关,信息论中的基本概念,它量化的是随机变量中所包含的“信息量英语Information content”。

独立的(H(X),H(Y)), 联合的(H(X,Y)), 以及一对带有互信息 I(X; Y) 的相互关联的子系统 X,Y 的条件熵。

MI不仅仅是度量实值随机变量和线性相关性(如相关系数),它更为通用。MI决定了随机变量联合分布的边缘分布的乘积之间的差异。MI是点互信息(Pointwise Mutual Information英语pointwise mutual information,PMI)的期望克劳德·香农在他的论文A Mathematical Theory of Communication英语A Mathematical Theory of Communication中定义并分析了这个度量,但是当时他并没有将其称为“互信息”。这个词后来由罗伯特·法诺[1]创造。互信息也称为信息增益

互信息的定义

设随机变量 是空间 中的一对随机变量。若他们的联合分布是 ,边缘分布分别是  ,那么,它们之间的互信息可以定义为:

 

其中, 为KL散度(Kullback–Leibler divergence)。注意,根据KL散度的性质,若联合分布 等于边缘分布  的乘积,则 ,即当  相互独立的时候,观测到Y对于我们预测X没有任何帮助,此时他们的互信息为0。

离散变量的互信息

离散随机变量 X 和 Y 的互信息可以计算为:

 

其中 p(x, y) 是 XY 的联合概率质量函数,而    分别是 XY 的边缘概率质量函数。

连续变量的互信息

连续随机变量的情形下,求和被替换成了二重定积分

 

其中 p(x, y) 当前是 XY 的联合概率密度函数,而    分别是 XY 的边缘概率密度函数。

如果对数以 2 为基底,互信息的单位是bit

直观上,互信息度量 XY 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 XY 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 XY 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 XY 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 XY 为相同随机变量时。)

互信息是 XY联合分布相对于假定 XY 独立情况下的联合分布之间的内在依赖性。 于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 XY 为独立随机变量。从一个方向很容易看出:当 XY 独立时,p(x,y) = p(x) p(y),因此:

 

此外,互信息是非负的(即  ; 见下文),而且是对称的英语Symmetric function(即  )。

与其他量的关系

互信息又可以等价地表示成

 

其中    是边缘H(X|Y) 和 H(Y|X) 是条件熵,而 H(X,Y) 是 XY联合熵。注意到这组关系和并集、差集和交集的关系类似,于是用Venn图表示。

在互信息定义的基础上使用琴生不等式,我们可以证明 I(X;Y) 是非负的,因此  。这里我们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:

 

上面其他性质的证明类似。

直观地说,如果把熵 H(Y) 看作一个随机变量於不确定度的量度,那么 H(Y|X) 就是"在已知 X 事件後Y事件會發生"的不確定度。於是第一个等式的右边就可以读作“將"Y事件的不确定度",减去 --- "在基於X事件後Y事件因此發生的不確定度"”。

这证实了互信息的直观意义为: "因X而有Y事件"的熵( 基於已知隨機變量的不確定性) 在"Y事件"的熵之中具有多少影響地位( "Y事件所具有的不確定性" 其中包含了多少 "Y|X事件所具有的不確性" ),意即"Y具有的不確定性"有多少程度是起因於X事件;

 舉例來說,當 I(X;Y) = 0時,也就是 H(Y) = H(Y|X)時,即代表此時 "Y的不確定性" 即為 "Y|X的不確定性",這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性 

所以具體的解釋就是: 互信息越小,兩個來自不同事件空間的隨機變量彼此之間的關聯性越低; 互信息越高,關聯性則越高 。


注意到离散情形 H(X|X) = 0,于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

互信息也可以表示为两个随机变量的边缘分布 XY 的乘积 p(x) × p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵

 

此外,令 p(x|y) = p(x, y) / p(y)。则

 

注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式   现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 YX条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,信息增益越大。

連續互信息的量化

對連續型隨機變數量化的定義如下:

 

量化後的隨機變數 :

 

則,

 

 

 

廣義而言,我們可以將互信息定義在有限多個連續隨機變數值域劃分

 為連續型隨機變數的值域, , 其中  劃分所構成的集合,意即 

 量化連續型隨機變數 後,所得結果為離散型隨機變數,

 

對於兩連續型隨機變數X、Y,其劃分分別為P、Q,則其互信息可表示為:

 

参见

  • 点间互信息英语Pointwise mutual information
  • 量子互信息英语Quantum mutual information

注释

  1. ^ Kreer, J. G. A question of terminology. IRE Transactions on Information Theory. 1957, 3 (3): 208. doi:10.1109/TIT.1957.1057418. 

参考文献

  • Cilibrasi, Rudi; Paul M.B. Vitan´ yi. Clustering by compression (PDF). IEEE Transactions on Information Theory. 2005, 51 (4): 1523–1545. doi:10.1109/TIT.2005.844059. 
  • Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in Henry Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14–30.
  • Church, Kenneth Ward; Hanks, Patrick. Word association norms, mutual information, and lexicography (PDF). Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. 1989. [永久失效連結]
  • Guiasu, Silviu. Information Theory with Applications. McGraw-Hill, New York. 1977. ISBN 978-0070251090. 
  • Li, Ming; Paul M.B. Vitan´ yi. An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. February 1997. ISBN 0-387-94868-6. 
  • Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1–10.
  • David J. C. MacKay. Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (available free online)
  • Haghighat, M. B. A., Aghagolzadeh, A., & Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering, 37(5), 744-756.
  • Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
  • Witten, Ian H. & Frank, Eibe. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, Amsterdam. 2005 [2015-04-02]. ISBN 978-0-12-374856-0. (原始内容于2020-11-27). 
  • Peng, H.C., Long, F., and Ding, C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27 (8): 1226–1238 [2015-04-02]. doi:10.1109/tpami.2005.159. (原始内容于2009-05-22). 
  • Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson, and Joshua Socolar. Mutual Information in Random Boolean models of regulatory networks. Physical Review E. 2008, 77 (1). arXiv:0707.3642 . 
  • Wells, W.M. III; Viola; P.; Atsumi; H.; Nakajima; S.; Kikinis; R. (PDF). Medical Image Analysis. 1996, 1 (1): 35–51 [2015-04-02]. PMID 9873920. doi:10.1016/S1361-8415(01)80004-9. (原始内容 (PDF)存档于2008-09-06). 

互信息, 在概率论和信息论中, 两个随机变量的, mutual, information, 度量了两个变量之间相互依赖的程度, 具体来说, 对于两个随机变量, mi是一个随机变量由于已知另一个随机变量而减少的, 信息量, 单位通常为比特, 的概念与随机变量的熵紧密相关, 熵是信息论中的基本概念, 它量化的是随机变量中所包含的, 信息量, 英语, information, content, 独立的, 联合的, 以及一对带有, 的相互关联的子系统, 的条件熵, mi不仅仅是度量实值随机变量和线性相关性, 如相关系数, . 在概率论和信息论中 两个随机变量的互信息 mutual Information MI 度量了两个变量之间相互依赖的程度 具体来说 对于两个随机变量 MI是一个随机变量由于已知另一个随机变量而减少的 信息量 单位通常为比特 互信息的概念与随机变量的熵紧密相关 熵是信息论中的基本概念 它量化的是随机变量中所包含的 信息量 英语 Information content 独立的 H X H Y 联合的 H X Y 以及一对带有互信息 I X Y 的相互关联的子系统 X Y 的条件熵 MI不仅仅是度量实值随机变量和线性相关性 如相关系数 它更为通用 MI决定了随机变量 X Y displaystyle displaystyle X Y 的联合分布与X displaystyle X 和Y displaystyle Y 的边缘分布的乘积之间的差异 MI是点互信息 Pointwise Mutual Information 英语 pointwise mutual information PMI 的期望 克劳德 香农在他的论文A Mathematical Theory of Communication 英语 A Mathematical Theory of Communication 中定义并分析了这个度量 但是当时他并没有将其称为 互信息 这个词后来由罗伯特 法诺 1 创造 互信息也称为信息增益 目录 1 互信息的定义 1 1 离散变量的互信息 1 2 连续变量的互信息 2 与其他量的关系 2 1 連續互信息的量化 3 参见 4 注释 5 参考文献互信息的定义 编辑设随机变量 X Y displaystyle displaystyle X Y 是空间X Y displaystyle displaystyle mathcal X times mathcal Y 中的一对随机变量 若他们的联合分布是p x y displaystyle displaystyle p x y 边缘分布分别是p x displaystyle displaystyle p x 和p y displaystyle displaystyle p y 那么 它们之间的互信息可以定义为 I X Y D K L p x y p x p y displaystyle displaystyle I X Y D mathrm KL p x y p x otimes p y 其中 D K L displaystyle displaystyle D mathrm KL 为KL散度 Kullback Leibler divergence 注意 根据KL散度的性质 若联合分布p x y displaystyle p x y 等于边缘分布p x displaystyle p x 和p y displaystyle p y 的乘积 则I X Y 0 displaystyle I X Y 0 即当X displaystyle X 和Y displaystyle Y 相互独立的时候 观测到Y对于我们预测X没有任何帮助 此时他们的互信息为0 离散变量的互信息 编辑 离散随机变量 X 和 Y 的互信息可以计算为 I X Y y Y x X p x y log p x y p x p y displaystyle I X Y sum y in Y sum x in X p x y log left frac p x y p x p y right 其中 p x y 是 X 和 Y 的联合概率质量函数 而 p x displaystyle p x 和 p y displaystyle p y 分别是 X 和 Y 的边缘概率质量函数 连续变量的互信息 编辑 在连续随机变量的情形下 求和被替换成了二重定积分 I X Y Y X p x y log p x y p x p y d x d y displaystyle I X Y int Y int X p x y log left frac p x y p x p y right dx dy 其中 p x y 当前是 X 和 Y 的联合概率密度函数 而 p x displaystyle p x 和 p y displaystyle p y 分别是 X 和 Y 的边缘概率密度函数 如果对数以 2 为基底 互信息的单位是bit 直观上 互信息度量 X 和 Y 共享的信息 它度量知道这两个变量其中一个 对另一个不确定度减少的程度 例如 如果 X 和 Y 相互独立 则知道 X 不对 Y 提供任何信息 反之亦然 所以它们的互信息为零 在另一个极端 如果 X 是 Y 的一个确定性函数 且 Y 也是 X 的一个确定性函数 那么传递的所有信息被 X 和 Y 共享 知道 X 决定 Y 的值 反之亦然 因此 在此情形互信息与 Y 或 X 单独包含的不确定度相同 称作 Y 或 X 的熵 而且 这个互信息与 X 的熵和 Y 的熵相同 这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时 互信息是 X 和 Y 的联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性 于是互信息以下面方式度量依赖性 I X Y 0 当且仅当 X 和 Y 为独立随机变量 从一个方向很容易看出 当 X 和 Y 独立时 p x y p x p y 因此 log p x y p x p y log 1 0 displaystyle log left frac p x y p x p y right log 1 0 此外 互信息是非负的 即 I X Y 0 displaystyle I X Y geq 0 见下文 而且是对称的 英语 Symmetric function 即 I X Y I Y X displaystyle I X Y I Y X 与其他量的关系 编辑互信息又可以等价地表示成 I X Y H X H X Y H Y H Y X H X H Y H X Y H X Y H X Y H Y X displaystyle begin aligned I X Y amp H X H X Y amp H Y H Y X amp H X H Y H X Y amp H X Y H X Y H Y X end aligned 其中 H X displaystyle H X 和 H Y displaystyle H Y 是边缘熵 H X Y 和 H Y X 是条件熵 而 H X Y 是 X 和 Y 的联合熵 注意到这组关系和并集 差集和交集的关系类似 于是用Venn图表示 在互信息定义的基础上使用琴生不等式 我们可以证明 I X Y 是非负的 因此 H X H X Y displaystyle H X geq H X Y 这里我们给出 I X Y H Y H Y X 的详细推导 I X Y x y p x y log p x y p x p y x y p x y log p x y p x x y p x y log p y x y p x p y x log p y x x y p x y log p y x p x y p y x log p y x y log p y x p x y x p x H Y X x y log p y p y H Y X H Y H Y H Y X displaystyle begin aligned I X Y amp sum x y p x y log frac p x y p x p y amp sum x y p x y log frac p x y p x sum x y p x y log p y amp sum x y p x p y x log p y x sum x y p x y log p y amp sum x p x left sum y p y x log p y x right sum y log p y left sum x p x y right amp sum x p x H Y X x sum y log p y p y amp H Y X H Y amp H Y H Y X end aligned 上面其他性质的证明类似 直观地说 如果把熵 H Y 看作一个随机变量於不确定度的量度 那么 H Y X 就是 在已知 X 事件後Y事件會發生 的不確定度 於是第一个等式的右边就可以读作 將 Y事件的不确定度 减去 在基於X事件後Y事件因此發生的不確定度 这证实了互信息的直观意义为 因X而有Y事件 的熵 基於已知隨機變量的不確定性 在 Y事件 的熵之中具有多少影響地位 Y事件所具有的不確定性 其中包含了多少 Y X事件所具有的不確性 意即 Y具有的不確定性 有多少程度是起因於X事件 舉例來說 當 I X Y 0時 也就是 H Y H Y X 時 即代表此時 Y的不確定性 即為 Y X的不確定性 這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性 所以具體的解釋就是 互信息越小 兩個來自不同事件空間的隨機變量彼此之間的關聯性越低 互信息越高 關聯性則越高 注意到离散情形 H X X 0 于是 H X I X X 因此 I X X I X Y 我们可以制定 一个变量至少包含其他任何变量可以提供的与它有关的信息 的基本原理 互信息也可以表示为两个随机变量的边缘分布 X 和 Y 的乘积 p x p y 相对于随机变量的联合熵 p x y 的相对熵 I X Y D K L p x y p x p y displaystyle I X Y D mathrm KL p x y p x p y 此外 令 p x y p x y p y 则 I X Y y p y x p x y log 2 p x y p x y p y D K L p x y p x E Y D K L p x y p x displaystyle begin aligned I X Y amp sum y p y sum x p x y log 2 frac p x y p x amp sum y p y D mathrm KL p x y p x amp mathbb E Y D mathrm KL p x y p x end aligned 注意到 这里相对熵涉及到仅对随机变量 X 积分 表达式 D K L p x y p x displaystyle D mathrm KL p x y p x 现在以 Y 为变量 于是互信息也可以理解为相对熵 X 的单变量分布 p x 相对于给定 Y 时 X 的条件分布 p x y 分布 p x y 和 p x 之间的平均差异越大 信息增益越大 連續互信息的量化 编辑 對連續型隨機變數量化的定義如下 f x i D i D i 1 D f x d x p i displaystyle f x i Delta int i Delta i 1 Delta f x dx p i 量化後的隨機變數X D displaystyle X Delta X D x i i D X lt i 1 D displaystyle X Delta x i i Delta leq X lt i 1 Delta 則 I X D Y D H X D H X D Y D displaystyle I X Delta Y Delta H X Delta H X Delta Y Delta h X l o g D h X Y l o g D displaystyle approx h X log Delta h X Y log Delta I X Y displaystyle I X Y 廣義而言 我們可以將互信息定義在有限多個連續隨機變數值域的劃分 令x displaystyle chi 為連續型隨機變數的值域 P i P displaystyle P i in P 其中P displaystyle P 為x displaystyle chi 劃分所構成的集合 意即 i P i x displaystyle cup i P i chi 以P displaystyle P 量化連續型隨機變數X displaystyle X 後 所得結果為離散型隨機變數 P r X P i P i d F x displaystyle Pr X P i int P i dF x 對於兩連續型隨機變數X Y 其劃分分別為P Q 則其互信息可表示為 I X Y s u p P Q I X P Y Q displaystyle I X Y underset P Q sup I X P Y Q 参见 编辑点间互信息 英语 Pointwise mutual information 量子互信息 英语 Quantum mutual information 注释 编辑 Kreer J G A question of terminology IRE Transactions on Information Theory 1957 3 3 208 doi 10 1109 TIT 1957 1057418 参考文献 编辑Cilibrasi Rudi Paul M B Vitan yi Clustering by compression PDF IEEE Transactions on Information Theory 2005 51 4 1523 1545 doi 10 1109 TIT 2005 844059 Cronbach L J 1954 On the non rational application of information measures in psychology in Henry Quastler ed Information Theory in Psychology Problems and Methods Free Press Glencoe Illinois pp 14 30 Church Kenneth Ward Hanks Patrick Word association norms mutual information and lexicography PDF Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics 1989 永久失效連結 Guiasu Silviu Information Theory with Applications McGraw Hill New York 1977 ISBN 978 0070251090 Li Ming Paul M B Vitan yi An introduction to Kolmogorov complexity and its applications New York Springer Verlag February 1997 ISBN 0 387 94868 6 Lockhead G R 1970 Identification and the form of multidimensional discrimination space Journal of Experimental Psychology 85 1 1 10 David J C MacKay Information Theory Inference and Learning Algorithms Cambridge Cambridge University Press 2003 ISBN 0 521 64298 1 available free online Haghighat M B A Aghagolzadeh A amp Seyedarabi H 2011 A non reference image fusion metric based on mutual information of image features Computers amp Electrical Engineering 37 5 744 756 Athanasios Papoulis Probability Random Variables and Stochastic Processes second edition New York McGraw Hill 1984 See Chapter 15 Witten Ian H amp Frank Eibe Data Mining Practical Machine Learning Tools and Techniques Morgan Kaufmann Amsterdam 2005 2015 04 02 ISBN 978 0 12 374856 0 原始内容存档于2020 11 27 Peng H C Long F and Ding C Feature selection based on mutual information criteria of max dependency max relevance and min redundancy IEEE Transactions on Pattern Analysis and Machine Intelligence 2005 27 8 1226 1238 2015 04 02 doi 10 1109 tpami 2005 159 原始内容存档于2009 05 22 Andre S Ribeiro Stuart A Kauffman Jason Lloyd Price Bjorn Samuelsson and Joshua Socolar Mutual Information in Random Boolean models of regulatory networks Physical Review E 2008 77 1 arXiv 0707 3642 Wells W M III Viola P Atsumi H Nakajima S Kikinis R Multi modal volume registration by maximization of mutual information PDF Medical Image Analysis 1996 1 1 35 51 2015 04 02 PMID 9873920 doi 10 1016 S1361 8415 01 80004 9 原始内容 PDF 存档于2008 09 06 取自 https zh wikipedia org w index php title 互信息 amp oldid 74506400, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。