Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1
一月 09, 2023
微分熵, 是消息理論中的一個概念, 是從以離散隨機變數所計算出的夏農熵推廣, 以連續型隨機變數計算所得之熵, 與離散隨機變數所計算出之夏農熵, 皆可代表描述一信息所需碼長的下界, 然而, 與夏農熵仍存在著某些相異的性質, 目录, 定義, 相關計算, 條件熵, 相對熵, 互信息, 性質, 相對熵恆正, 鏈式法則, 平移, 縮放, 上界, 估計誤差, 漸進等分性, 漸進等分性, 典型集, 體積, 量化, 例子, 最大熵, 常態分佈, 指數分佈, 參考文獻定義, 编辑令x, displaystyle, 為一連續型隨機變數. 微分熵是消息理論中的一個概念 是從以離散隨機變數所計算出的夏農熵推廣 以連續型隨機變數計算所得之熵 微分熵與離散隨機變數所計算出之夏農熵 皆可代表描述一信息所需碼長的下界 然而 微分熵與夏農熵仍存在著某些相異的性質 目录 1 定義 2 相關計算 2 1 條件熵 2 2 相對熵 2 3 互信息 3 性質 3 1 相對熵恆正 3 2 鏈式法則 3 3 平移 3 4 縮放 3 5 上界 3 6 估計誤差 4 漸進等分性 4 1 漸進等分性 4 2 典型集 4 3 體積 5 量化 5 1 例子 6 最大熵 6 1 常態分佈 6 2 指數分佈 7 參考文獻定義 编辑令X displaystyle X 為一連續型隨機變數 其機率密度函數為f X x displaystyle f X x 其中X displaystyle X 的支撐集為S x X f X x gt 0 displaystyle S x in X f X x gt 0 微分熵h X x displaystyle h X x h X x S f X x l o g f X x d x displaystyle h X x int S f X x log f X x dx 與夏農熵為類比 計算夏農熵之算式中的log displaystyle log 通常以2為底 而微分熵為計算方便 常以l n displaystyle ln 計算後再轉換為l o g 2 displaystyle log 2 的結果 微分熵與夏農熵最大的不同點在於f X x displaystyle f X x 可為大於1的數值 此時可能會造成h X x displaystyle h X x 為負值 而夏農熵H X x displaystyle H X x 恆不為負 例如 X displaystyle X 為均勻分布U 0 a a lt 1 displaystyle U 0 a a lt 1 f X x displaystyle f X x 1 a displaystyle 1 over a h X x 0 a displaystyle h X x int limits 0 a 1 a displaystyle 1 over a l n displaystyle ln 1 a displaystyle 1 over a d x displaystyle dx h X x l n a displaystyle h X x ln a lt 0 displaystyle lt 0 相關計算 编辑條件熵 编辑 f x y displaystyle f x y 為X Y displaystyle X Y 之聯合機率密度函數 其條件熵為 h X Y f x y l o g f x y d x d y displaystyle h X Y int f x y log f x y dxdy 相對熵 编辑 又稱KL散度 Kullback Leibler divergence 兩機率密度函數f g的相對熵定義為 D f g f l o g f g displaystyle D f g int flog f over g 互信息 编辑 兩連續型隨機變數的聯合機率密度函數為f x y displaystyle f x y 其互信息 I X Y D f x y f x f y displaystyle I X Y D f x y f x f y 廣義而言 我們可以將互信息定義在有限多個連續隨機變數值域的劃分 可參考連續互信息的量化 性質 编辑相對熵恆正 编辑 與夏農相對熵性質相同 恆正 D f g f l o g g f displaystyle displaystyle D f g int flog g over f l o g f g f displaystyle leq log int f g over f 延森不等式 0 displaystyle leq 0 鏈式法則 编辑 一次觀測所有隨機變數所測得的的聯合熵 與個別接收隨機變數後計算的條件熵總和相同 即觀測順序與間隔不影響微分熵 h X 1 X 2 X n k 1 n h X i X 1 X 2 X i 1 displaystyle h X 1 X 2 X n sum k 1 n h X i X 1 X 2 X i 1 平移 编辑 隨機變數的平移不影響微分熵 因為固定的平移不會增加隨機變數的方差 h X c h X displaystyle h X c h X 縮放 编辑 將隨機變數縮放會增加其方差 微分熵亦會隨之增加 h A X h X l o g d e t A displaystyle h AX h X log det A 上界 编辑 期望值為0 方差為s 2 displaystyle sigma 2 且值域為R displaystyle R 之隨機變數X displaystyle X 的微分熵 其上界為常態分佈N 0 s 2 displaystyle N 0 sigma 2 的微分熵 h X 1 2 l o g 2 p e s 2 displaystyle h X leq 1 over 2 log 2 pi e sigma 2 估計誤差 编辑 隨機變數X displaystyle X 與其估計子X displaystyle widehat X 之均方誤差存在下界 當X displaystyle X 為常態分佈且X displaystyle widehat X 為無偏估計子時 等號成立 E X X 2 1 2 p e e 2 h X displaystyle E X widehat X 2 geq 1 over 2 pi e e 2h X 漸進等分性 编辑漸進等分性 编辑 離散隨機變數的夏農熵中 獨立同分布的隨機變數序列 在漸進等分性 Asymptotic equipartition property 之下其機率質量函數p X 1 X 2 X n displaystyle p X 1 X 2 X n 趨近於2 n H X displaystyle 2 nH X 連續型隨機變數之漸進等分性 1 n l o g f X 1 X 2 X n h X displaystyle 1 over n log f X 1 X 2 X n rightarrow h X 典型集 编辑 典型集 Typical set 定義如下A ϵ n x 1 x 2 x n S n 1 n l o g f x 1 x 2 x n h X ϵ displaystyle A epsilon n x 1 x 2 x n in S n 1 over n logf x 1 x 2 x n h X leq epsilon ϵ gt 0 displaystyle epsilon gt 0 體積 编辑 集合包含於R n displaystyle R n A R n displaystyle A subset R n 其體積 Volume V o l A displaystyle Vol A 定義如下 V o l A A d x 1 d x 2 d x n displaystyle Vol A int limits A dx 1 dx 2 dx n 典型集A ϵ n displaystyle A epsilon n 的體積有以下性質 1 V o l A ϵ n 2 n h X ϵ displaystyle Vol A epsilon n leq 2 n h X epsilon 2 V o l A ϵ n 1 ϵ 2 n h X ϵ displaystyle Vol A epsilon n geq 1 epsilon 2 n h X epsilon 證明1 由 1 n l o g f X 1 X 2 X n h X displaystyle 1 over n log f X 1 X 2 X n rightarrow h X 可得 1 S n f x 1 x 2 x n d x 1 d x 2 d x n displaystyle 1 int S n f x 1 x 2 x n dx 1 dx 2 dx n A ϵ n f x 1 x 2 x n d x 1 d x 2 d x n displaystyle geq int A epsilon n f x 1 x 2 x n dx 1 dx 2 dx n A ϵ n 2 n h X ϵ d x 1 d x 2 d x n displaystyle geq int A epsilon n 2 n h X epsilon dx 1 dx 2 dx n 2 n h X ϵ A ϵ n d x 1 d x 2 d x n displaystyle 2 n h X epsilon int A epsilon n dx 1 dx 2 dx n 2 n h X ϵ V o l A ϵ n displaystyle 2 n h X epsilon Vol A epsilon n 2 當n足夠大時 P r A ϵ n gt 1 ϵ displaystyle Pr A epsilon n gt 1 epsilon 因此 1 ϵ A ϵ n f x 1 x 2 x n d x 1 d x 2 d x n displaystyle 1 epsilon leq int A epsilon n f x 1 x 2 x n dx 1 dx 2 dx n A ϵ n 2 n h X ϵ d x 1 d x 2 d x n displaystyle leq int A epsilon n 2 n h X epsilon dx 1 dx 2 dx n 2 n h X ϵ A ϵ n d x 1 d x 2 d x n displaystyle 2 n h X epsilon int A epsilon n dx 1 dx 2 dx n 2 n h X ϵ V o l A ϵ n displaystyle 2 n h X epsilon Vol A epsilon n 量化 编辑我們可以將機率密度函數量化後 以夏農熵來計算微分熵 首先將連續隨機變數X以D displaystyle Delta 分為數個區間 根據均值定理 x i displaystyle x i 滿足 f x i D i D i 1 D f x d x p i displaystyle f x i Delta int i Delta i 1 Delta f x dx p i 量化後的隨機變數X D displaystyle X Delta X D x i i D X lt i 1 D displaystyle X Delta x i i Delta leq X lt i 1 Delta 夏農熵為 H X D f x i D l o g f x i l o g D displaystyle H X Delta sum infty infty f x i Delta log f x i log Delta 意即 當D 0 displaystyle Delta rightarrow 0 h f h X displaystyle h f h X 例子 编辑 1 對X做n位元量化X U 0 1 8 displaystyle X sim U 0 1 over 8 H X D 3 n displaystyle H X Delta 3 n 上式表示 若我們想得到n位元精確度 則需要n 3個位元來表示 2 對X做n位元量化X N 0 s 2 displaystyle X sim N 0 sigma 2 H X D 1 2 l o g 2 p e s 2 n displaystyle H X Delta 1 over 2 log 2 pi e sigma 2 n 上式表示 若我們想得到n位元精確度 需要1 2 l o g 2 p e s 2 n displaystyle 1 over 2 log 2 pi e sigma 2 n 個位元來表示 最大熵 编辑常態分佈 编辑 隨機變數X displaystyle X X N displaystyle X N 值域為 displaystyle infty infty 方差為s 2 displaystyle sigma 2 X displaystyle X 為任意分佈 X N displaystyle X N 為常態分佈 機率密度函數分別為f x g x displaystyle f x g x 則h X X 1 2 l o g 2 p e s 2 displaystyle h X X leq 1 over 2 log 2 pi e sigma 2 證明 0 D f g f x l o g f x g x d x h X f x l o g g x d x h X h x displaystyle begin aligned 0 amp leq D f g amp int f x log f x over g x dx amp h X int f x log g x dx amp h X h x end aligned 其中 f x l o g g x d x f x 1 2 l o g 2 p s 2 1 2 x m s 2 d x 1 2 l o g 2 p e s 2 displaystyle begin aligned int infty infty f x log g x dx amp int infty infty f x 1 over 2 log 2 pi sigma 2 1 over 2 x mu over sigma 2 dx amp 1 over 2 log 2 pi e sigma 2 end aligned 指數分佈 编辑 隨機變數X displaystyle X Y displaystyle Y 值域為 0 displaystyle 0 infty 期望值為l displaystyle lambda X displaystyle X 為任意分佈 Y displaystyle Y 為指數分佈 機率密度函數分別為f x g x displaystyle f x g x 則h X X 1 l o g l displaystyle h X X leq 1 log lambda 證明 0 D f g f x l o g f x g x d x h X f x l o g g x d x h X h Y displaystyle begin aligned 0 amp leq D f g amp int f x log f x over g x dx amp h X int f x log g x dx amp h X h Y end aligned 其中 0 f x l o g g x d y 0 f x l o g l x l d x 1 l o g l displaystyle begin aligned int limits 0 infty f x log g x dy amp int limits 0 infty f x log lambda x over lambda dx amp 1 log lambda end aligned 參考文獻 编辑Thomas M Cover Joy A Thomas Elements of Information Theory 1991 John Wiley amp Sons Inc 1971 ISBN 0 471 20061 1 取自 https zh wikipedia org w index php title 微分熵 amp oldid 51541132, 维基百科,wiki,书籍,书籍,图书馆,