第二章信息量和熵-西安電子科技大學個人主頁系統(tǒng)我的_第1頁
已閱讀1頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章 信息量和熵,,信息量和熵,離散變量的非平均信息量 離散集的平均自信息量-熵 離散集的平均互信息量 信息不等式 凸函數和互信息的凸性 連續(xù)隨機變量的互信息和微分熵,2.1 離散變量的非平均信息量,,輸入,輸出空間定義,輸入空間X={xk,k=1,2,…,K},概率記為q(xk)輸出空間Y={yj,j=1,2,…,J},概率記為ω(yj)聯合空間XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率為p(

2、xkyj) p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk),非平均互信息量,例2.1.1,非平均互信息量,非平均互信息量,例2.1.2,非平均互信息量,非平均互信息量,定義2.1.1(非平均互信息量) 給定一個二維離散型隨機變量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就給定了兩個離散型隨機變量{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J

3、})。事件xk∈X與事件yj∈Y的互信息量定義為,非平均互信息量,其中底數a是大于1的常數。常用a=2或a=e,當a=2時互信息量的單位為“比特”。幾點說明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有對稱性:I(xk; yj)=I(yj; xk)。(2)當rkj=qkwj時I(xk; yj)=0。(當兩個事件相互獨立時,互信息量為0)。(3)當rkj>qkwj時I(xk; yj)>0,當r

4、kj<qkwj時I(xk; yj)<0。(當兩個事件正相關時,互信息量為正值,當兩個事件負相關時,互信息量為負值)。,條件互信息和聯合事件互信息,三個事件集的條件互信息定義為可以推廣到任意有限多個空間情況,互信息的可加性,系統(tǒng),,,u1,u2,u3,互信息量特性:,對稱性可加性互信息量的值域: -infinite ~ +infinite, 即全體實數,離散變量的非平均自信息量

5、,定義:給定集合{X, q(xk)},事件xk∈X的自信息量定義為:,非平均自信息的性質,非負性體現先驗不確定性大小,條件自信息和聯合自信息,自信息、條件自信息和互信息,2.2 離散集的平均自信息量-熵,,熵,集X中事件出現的平均不確定性,(平均自信息量——熵) 離散型隨機變量{X, xk, qk, k=1~K}的平均自信息量(又稱為熵)定義為如下的H(X),其中底數a是大于1的常數。,熵,注意:(1)事件xk的自信息量值為I(x

6、k)=loga(1/qk),因此H(X)是隨機變量X的各事件自信息量值的“數學期望”。(2)定義H(X)時,允許某個qk=0。(此時將qkloga(1/qk) 通盤考慮)此時補充定義qkloga(1/qk)=0。這個定義是合理的,因為,熵,例2.2.1 離散型隨機變量X有兩個事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。則X的平均自信息量(熵)為H(X)=ploga(1/p)+(1-p)loga(1/(1-p))

7、 。觀察H(X)(它是p的函數,圖2.2.1給出了函數圖象,該圖象具有某種對稱性),有當p=0或p=1時,H(X)=0。(隨機變量X退化為常數時,熵為0)當00。p越靠近1/2, H(X)越大。 (X是真正的隨機變量時,總有正的熵。隨機性越大,熵越大)當p=1/2時,H(X)達到最大。(隨機變量X的隨機性最大時,熵最大。特別如果底數a=2,則H(X)=1比特),條件熵(定義2.2.2),XY獨立時有H(X|Y)=H(X),聯合熵

8、,熵的性質,對稱性非負性確定性擴展性可加性極值性是H(P)上凸函數,熵是概率矢量的函數,P=(p1, p2, …, pk)可以看作是K維矢量,當 ,常稱作是概率矢量;故HK(P)=HK(p1, p2, …, pk)是概率矢量P的函數,熵的性質-對稱性,矢量的各分量p1,p2,…pk的次序任意改變時,熵值不變熵函數的值只與概率分布或將1分割成的K個實數的取值有關,而與這K個實數

9、和K個事件采取何種一一對應方式無關,熵的性質-非負性,HK(P) = HK(p1, p2, …, pK) ≥0可由單個事件自信息量的非負性得到,熵的性質-確定性,若事件集X中有一個事件為必然事件,其余事件為不可能事件,則此集合的熵值為0,熵的性質-擴展性,熵的性質-可加性,H(p1q11,p1q12,…,p4q44)=H(p1…,p4)+p1H(q11,…,q14)+…+p4H(q41,…,q44),相對熵和條件相對熵,相對熵用于度

10、量兩個概率分布P(x)與Q(x)的距離兩個隨機變量集合的條件相對熵定義為相對熵和條件相對熵滿足可加性,熵的唯一性,熵函數的形式是唯一的對稱性擴展性可加性極值性,2.3 離散集的平均互信息量,,平均互信息量,定義2.4.1(平均互信息量) 給定一個二維離散型隨機變量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就給定了兩個離散型隨機變量{X, xk, qk, k=1~K}和{Y, y

11、j, wj, j=1~J})。X與Y的平均互信息量定義為如下的I(X; Y):,平均互信息量,注意:事件對(xk, yj)的互信息量值為I(xk; yj)。此外,可以定義半平均互信息量I(xk; Y)和I(X; yj)。,平均互信息量的性質,對稱性 I(X;Y)=I(Y;X)平均互信息用熵與條件熵表示平均互信息與熵的關系: I(X;Y) ≤H(X) or H(Y)若X是Y的確定的函數X=g(Y),則I(X;Y)=H(X)

12、≤H(Y); 若Y是X的確定的函數Y=g(X),則I(X; Y)=H(Y)≤H(X)。,平均互信息量,一般印象(平均互信息量I(X; Y)的各種性質與我們對“互信息量”這個名詞的直觀理解非常吻合)。一般情形:總有0≤I(X; Y)≤min{H(X), H(Y)}。一種極端情形:若X與Y相互獨立,則I(X; Y)=0。另一種極端情形:若X、Y中有一個完全是另一個的確定的函數,則I(X; Y)=min{H(X), H(Y)}。,平均

13、互信息量,,平均條件互信息與聯合互信息,鏈式法則,熵的鏈式法則平均互信息量的鏈式法則,信息不等式與信息處理定理,,凸函數,凸集R:a,b屬于R,qa+(1-q)b也屬于R,其中0≤q≤1概率矢量:矢量a的所有分量非負,且和為1概率矢量全體所構成的區(qū)域R是凸的上凸函數下凸函數,凸函數的性質,定理2.5.1:如果函數f(x)的二階導數是處處非負,則f(x)是嚴格下凸的。f(a)是上凸的,-f(a)是下凸的f1(a),…

14、,fL(a)是R上的上凸函數,c1,…,cL是正數,c1f1(a)+…+cLfL(a)也是上凸函數,K-T條件,f(a)是定義域R上的上凸函數,a是概率矢量。偏導數 存在且連續(xù), f(a)在R上為極大的 充分必要條件 其中l(wèi)為一常數。,信息不等式,基礎不等式:對于任意的x>0, lnx≤x-1,等號成立當且僅當x=1Jensen不等式: f(a)是上凸函數,E[f(

15、a)]≤f[E(a)],E為求數學期望信息散度不等式:D(p||q)≥0,等號成立當且僅當對所有的x,p(x)=q(x),信息不等式,互信息量不等式:I(X;Y)≥0證明:I(X;Y)=D(p(x,y)||p(x)p(y))≥0最大熵定理:H(X)≤log|X|,|X|是X中元素的數目,等號等概的時候成立。條件降低熵:H(X|Y) ≤H(X),X與Y獨立時等號成立,信息不等式,對數和不等式:a1,a2,…an和b1,b2,…

16、bn都非負Fano不等式可以弱化為:,信息處理定理,Z出現情況下,X和Y獨立,信息處理定理,熵的性質-凸性,相對熵的凸性:D(p||q)是概率分布對(p,q)的下凸函數:H(P)是P的上凸函數,記離散型隨機變量X的事件為1,2,…,K。記X的概率分布為P(X=k)=qk,k=1~K。記離散型隨機變量Y的事件為1,2,…,J。記條件概率P(Y=j|X=k)=p(j|k)。則rkj=P((X, Y)=(k,j))

17、=qkp(j|k),(概率論中的乘法公式)wj=P(Y=j)=∑k qkp(j|k),(概率論中的全概率公式),互信息的凸性,互信息的凸性,p(y | x)給定,I(X; Y)是q(x)的上凸函數q(x)給定,I(X; Y)是p(y | x)的下凸函數,互信息的凸性,設條件概率{p(j|k),k=1~K,j=1~J}被確定。此時I(X; Y)是概率向量q=(q1, q2, …, qK)的函數。我們希望找到這樣的概率向量,使得對應的I

18、(X; Y)達到最大。這就是說,記我們希望找到這樣的K維概率向量a=(a1, a2, …, aK),使得,互信息的凸性,K維概率向量a=(a1, a2, …, aK)使得當且僅當:以a為X的概率向量的時候,I(X=k; Y)對所有ak>0的k都取一個相同的值C; I(X=k; Y)對所有滿足ak=0的k都取值不超過上述的相同值C 。,互信息的凸性,I(X=k; Y)表示什么?表示事件X=k與隨機變量Y之間的“半平

19、均互信息量”。,互信息的凸性,例 設X的事件有0、1; Y的事件有0、1; 已知p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。當X服從等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)時,I(X;Y)達到最大。因為此時,互信息的凸性,2.4 連續(xù)隨機變量的互信息和微分熵,,連續(xù)隨機變量的互信息,定義2.5.1 給定二維連續(xù)型隨機變量{(X, Y), f(X,Y)(x, y)}(因

20、此就給定了兩個連續(xù)型隨機變量{X, fX(x)}和{Y, fY(y)})。事件x∈X與事件y∈Y的互信息量定義為,連續(xù)隨機變量的平均互信息,I(X; Y | Z)I(XY; Z),定義2.5.2 給定二維連續(xù)型隨機變量{(X, Y), f(X,Y)(x, y)}(因此就給定了兩個連續(xù)型隨機變量{X, fX(x)}和{Y, fY(y)})。 X與Y的平均互信息量定義為,性質,非負性對稱性數據處理定理關系,連續(xù)隨機變量的

21、微分熵,(連續(xù)型隨機變量為什么不能類似地定義平均自信息量——熵?這是因為,連續(xù)型隨機變量的事件有無窮多個,每個事件發(fā)生的概率無窮小。如果類似地定義熵,則熵是無窮大。因此只能定義所謂“微分熵”,而“微分熵”的直觀合理性大打折扣),微分熵的定義 給定連續(xù)型隨機變量{X, fX(x)}。 X的微分熵定義為,連續(xù)隨機變量的微分熵,HC(XY)HC(Y | X), HC(Y | X) ≤HC(Y)互信息與微分熵I(X ; Y)=HC(

22、X)-HC(X | Y)=HC(Y)-HC(Y | X) =HC(X)+HC(Y)-HC(X, Y)HC(X, Y)=HC(X)+HC(Y)-I(X ; Y),均勻隨機變量的微分熵,例2.7.2 設X~U(a, b),求X的微分熵(我們將發(fā)現, X的微分熵未必非負)。,正態(tài)隨機變量的微分熵,例2.7.3 設X~N(m, σ2),求X的微分熵(我們將發(fā)現, X的微分熵未必非負)。,正態(tài)隨機變量的微分熵,熵功率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論