




已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一些信息熵的含義(1) 信息熵的定義:假設(shè)X是一個(gè)離散隨即變量,即它的取值范圍R=x1,x2.是有限可數(shù)的。設(shè)pi=PX=xi,X的熵定義為: (a)若(a)式中,對(duì)數(shù)的底為2,則熵表示為H2(x),此時(shí)以2為基底的熵單位是bits,即位。若某一項(xiàng)pi=0,則定義該項(xiàng)的pilogpi-1為0。(2) 設(shè)R=0,1,并定義PX=0=p,PX=1=1-p。則此時(shí)的H(X)=-plogp-(1-p)log(1-p)。該H(x)非常重要,稱為熵函數(shù)。熵函數(shù)的的曲線如下圖表示:再者,定義對(duì)于任意的xR,I(x)=-logPX =x。則H(X)就是I(x)的平均值。此時(shí)的I(x)可視為x所提供的信息量。I(x)的曲線如下:(3) H(X)的最大值。若X在定義域R=x1,x2,.xr,則0=H(X)=logr。(4) 條件熵:定義推導(dǎo):H(X|Y=y)= p(x|y)log1/p(x,y)H(X|Y)=p(y)H(X|Y=y)= p(y)*p(x|y)log1/p(x/y) H(X|Y)表示得到Y(jié)后,X的平均信息量,即平均不確定度。(5) Fano不等式:設(shè)X和Y都是離散隨機(jī)變量,都取值于集合x1,x2,.xr。則H(X|Y)=H(X|Y),H(Y)=H(Y|X)。信息熵信息熵(Information Entropy)編輯什么是信息熵信息熵是一個(gè)數(shù)學(xué)上頗為抽象的概念,在這里不妨把信息熵理解成某種特定信息的出現(xiàn)概率(離散隨機(jī)事件的出現(xiàn)概率)。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量。編輯信息熵的計(jì)算根據(jù)Charles H. Bennett對(duì)Maxwells Demon的解釋,對(duì)信息的銷毀是一個(gè)不可逆過(guò)程,所以銷毀信息是符合熱力學(xué)第二定律的。而產(chǎn)生信息,則是為系統(tǒng)引入負(fù)(熱力學(xué))熵的過(guò)程。所以信息熵的符號(hào)與熱力學(xué)熵應(yīng)該是相反的。一般而言,當(dāng)一種信息出現(xiàn)概率更高的時(shí)候,表明它被傳播得更廣泛,或者說(shuō),被引用的程度更高。我們可以認(rèn)為,從信息傳播的角度來(lái)看,信息熵可以表示信息的價(jià)值。這樣我們就有一個(gè)衡量信息價(jià)值高低的標(biāo)準(zhǔn),可以做出關(guān)于知識(shí)流通問(wèn)題的更多推論。信源的平均不定度。在信息論中信源輸出是隨機(jī)量,因而其不定度可以用概率分布來(lái)度量。記 H(X)H(P1,P2,Pn)P(xi)logP(xi),這里P(xi),i1,2,n為信源取第i個(gè)符號(hào)的概率。P(xi)=1,H(X)稱為信源的信息熵。熵的概念來(lái)源于熱力學(xué)。在熱力學(xué)中熵的定義是系統(tǒng)可能狀態(tài)數(shù)的對(duì)數(shù)值,稱為熱熵。它是用來(lái)表達(dá)分子狀態(tài)雜亂程度的一個(gè)物理量。熱力學(xué)指出,對(duì)任何已知孤立的物理系統(tǒng)的演化,熱熵只能增加,不能減少。然而這里的信息熵則相反,它只能減少,不能增加。所以熱熵和信息熵互為負(fù)量。且已證明,任何系統(tǒng)要獲得信息必須要增加熱熵來(lái)補(bǔ)償,即兩者在數(shù)量上是有聯(lián)系的??梢詮臄?shù)學(xué)上加以證明,只要H(X)滿足下列三個(gè)條件:連續(xù)性:H(P,1P)是P的連續(xù)函數(shù)(0P1);對(duì)稱性:H(P1,Pn)與P1,Pn的排列次序無(wú)關(guān);可加性:若PnQ1+Q20,且Q1,Q20,則有H(P1,Pn-1,Q1,Q2)H(P1,Pn-1)+PnH;則一定有下列唯一表達(dá)形式:H(P1,Pn)-CP(xi)logP(xi)其中C為正整數(shù),一般取C1,它是信息熵的最基本表達(dá)式。信息熵的單位與公式中對(duì)數(shù)的底有關(guān)。最常用的是以2為底,單位為比特(bit);在理論推導(dǎo)中常采用以e為底,單位為奈特(Nat);還可以采用其他的底和單位,并可進(jìn)行互換。信息熵除了上述三條基本性質(zhì)外,還具有一系列重要性質(zhì),其中最主要的有:非負(fù)性:H(P1,Pn)0;確定性:H(1,0)H(0,1)H(0,1,0,)0;擴(kuò)張性:Hn-1(P1,Pn-,)Hn(P1,Pn);極值性:P(xi)logP(xi)P(xi)logQ(xi);這里Q(xi)1;上凸性:HP +(1-)QH(P)+(1-)H(Q),式中01。信息熵信息是個(gè)很抽象的概念。人們常常說(shuō)信息很多,或者信息較少,但卻很難說(shuō)清楚信息到底有多少。比如一本五十萬(wàn)字的中文書到底有多少信息量。直到1948年,香農(nóng)提出了“信息熵”的概念,才解決了對(duì)信息的量化度量問(wèn)題。信息論之父克勞德艾爾伍德香農(nóng)第一次用數(shù)學(xué)語(yǔ)言闡明了概率與信息冗余度的關(guān)系。目 錄1理論提出2信息含義1. 2.1現(xiàn)代定義2. 2.2最初定義3. 2.3計(jì)算公式4. 2.4博弈圣經(jīng)1理論提出1信息論之父 C. E. Shannon 在 1948 年發(fā)表的論文“通信的數(shù)學(xué)理論( A Mathematical Theory of Communication )”中, Shannon 指出,任何信息都存在冗余,冗余大小與信息中每個(gè)符號(hào)(數(shù)字、字母或單詞)的出現(xiàn)概率或者說(shuō)不確定性有關(guān)。 Shannon 借鑒了熱力學(xué)的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計(jì)算信息熵的數(shù)學(xué)表達(dá)式。2信息含義現(xiàn)代定義信息是物質(zhì)、能量、信息及其屬性的標(biāo)示。【逆維納信息定義】信息是確定性的增加?!灸嫦戕r(nóng)信息定義】信息是事物現(xiàn)象及其屬性標(biāo)識(shí)的集合?!?002年】最初定義信息理論的鼻祖之一Claude E. Shannon把信息(熵)定義為離散隨機(jī)事件的出現(xiàn)概率。所謂信息熵,是一個(gè)數(shù)學(xué)上頗為抽象的概念,在這里不妨把信息熵理解成某種特定信息的出現(xiàn)概率。而信息熵和熱力學(xué)熵是緊密相關(guān)的。根據(jù)Charles H. Bennett對(duì)Maxwells Demon的重新解釋,對(duì)信息的銷毀是一個(gè)不可逆過(guò)程,所以銷毀信息是符合熱力學(xué)第二定律的。而產(chǎn)生信息,則是為系統(tǒng)引入負(fù)(熱力學(xué))熵的過(guò)程。所以信息熵的符號(hào)與熱力學(xué)熵應(yīng)該是相反的。一般而言,當(dāng)一種信息出現(xiàn)概率更高的時(shí)候,表明它被傳播得更廣泛,或者說(shuō),被引用的程度更高。我們可以認(rèn)為,從信息傳播的角度來(lái)看,信息熵可以表示信息的價(jià)值。這樣子我們就有一個(gè)衡量信息價(jià)值高低的標(biāo)準(zhǔn),可以做出關(guān)于知識(shí)流通問(wèn)題的更多推論。計(jì)算公式H(x)=EI(xi)=E log(2,1/p(xi) =-p(xi)log(2,p(xi) (i=1,2,.n)博弈圣經(jīng)信息熵:信息的基本作用就是消除人們對(duì)事物的不確定性。多數(shù)粒子組合之后,在它似像非像的形態(tài)上押上有價(jià)值的數(shù)碼,具體地說(shuō),這就是一個(gè)在博弈對(duì)局中現(xiàn)象信息的混亂。香農(nóng)指出,它的準(zhǔn)確信息量應(yīng)該是 -(p1*log(2,p1) + p2 * log(2,p2) +p32 *log(2,p32),信息熵其中,p1,p2 ,p32 分別是這 32 個(gè)球隊(duì)奪冠的概率。香農(nóng)把它稱為“信息熵” (Entropy),一般用符號(hào) H 表示,單位是比特。有興趣的讀者可以推算一下當(dāng) 32 個(gè)球隊(duì)奪冠概率相同時(shí),對(duì)應(yīng)的信息熵等于五比特。有數(shù)學(xué)基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對(duì)于任意一個(gè)隨機(jī)變量 X(比如得冠軍的球隊(duì)),它的熵定義如下:變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。所以,信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量。熵的概念源自熱物理學(xué).假定有兩種氣體a、b,當(dāng)兩種氣體完全混合時(shí),可以達(dá)到熱物理學(xué)中的穩(wěn)定狀態(tài),此時(shí)熵最高。如果要實(shí)現(xiàn)反向過(guò)程,即將a、b完全分離,在封閉的系統(tǒng)中是沒有可能的。只有外部干預(yù)(信息),也即系統(tǒng)外部加入某種有序化的東西(能量),使得a、b分離。這時(shí),系統(tǒng)進(jìn)入另一種穩(wěn)定狀態(tài),此時(shí),信息熵最低。熱物理學(xué)證明,在一個(gè)封閉的系統(tǒng)中,熵總是增大,直至最大。若使系統(tǒng)的熵減少(使系統(tǒng)更加有序化),必須有外部能量的干預(yù)。信息熵的計(jì)算是非常復(fù)雜的。而具有多重前置條件的信息,更是幾乎不能計(jì)算的。所以在現(xiàn)實(shí)世界中信息的價(jià)值大多是不能被計(jì)算出來(lái)的。但因?yàn)樾畔㈧睾蜔崃W(xué)熵的緊密相關(guān)性,所以信息熵是可以在衰減的過(guò)程中被測(cè)定出來(lái)的。因此信息的價(jià)值是通過(guò)信息的傳遞體現(xiàn)出來(lái)的。在沒有引入附加價(jià)值(負(fù)熵)的情況下,傳播得越廣、流傳時(shí)間越長(zhǎng)的信息越有價(jià)值。熵首先是物理學(xué)里的名詞.在傳播中是指信息的不確定性,一則高信息度的信息熵是很低的,低信息度的熵則高。具體說(shuō)來(lái),凡是導(dǎo)致隨機(jī)事件集合的肯定性,組織性,法則性或有序性等增加或減少的活動(dòng)過(guò)程,都可以用信息熵的改變量這個(gè)統(tǒng)一的標(biāo)尺來(lái)度量。在信息論中,熵被用來(lái)衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值。它代表了在被接收之前,信號(hào)傳輸過(guò)程中損失的信息量,又被稱為信息熵。信息熵也稱信源熵、平均自信息量。在1948年,克勞德艾爾伍德香農(nóng)將熱力學(xué)的熵,引入到信息論,因此它又被稱為香農(nóng)熵。目錄隱藏 1簡(jiǎn)介o 1.1熵的計(jì)算 2定義 3范例 4熵的特性 5和熱力學(xué)熵的聯(lián)系 6參見 7參考簡(jiǎn)介編輯熵的概念最早起源于物理學(xué),用于度量一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度。在信息論里面,熵是對(duì)不確定性的測(cè)量。但是在信息世界,熵越高,則能傳輸越多的信息,熵越低,則意味著傳輸?shù)男畔⒃缴佟S⒄Z(yǔ)文本數(shù)據(jù)流的熵比較低,因?yàn)橛⒄Z(yǔ)很容易讀懂,也就是說(shuō)很容易被預(yù)測(cè)。即便我們不知道下一段英語(yǔ)文字是什么內(nèi)容,但是我們能很容易地預(yù)測(cè),比如,字母e總是比字母z多,或者qu字母組合的可能性總是超過(guò)q與任何其它字母的組合。如果未經(jīng)壓縮,一段英文文本的每個(gè)字母需要8個(gè)比特來(lái)編碼,但是實(shí)際上英文文本的熵大概只有4.7比特。如果壓縮是無(wú)損的,即通過(guò)解壓縮可以百分之百地恢復(fù)初始的消息內(nèi)容,那么壓縮后的消息攜帶的信息和未壓縮的原始消息是一樣的多。而壓縮后的消息可以通過(guò)較少的比特傳遞,因此壓縮消息的每個(gè)比特能攜帶更多的信息,也就是說(shuō)壓縮信息的熵更加高。熵更高意味著比較難于預(yù)測(cè)壓縮消息攜帶的信息,原因在于壓縮消息里面沒有冗余,即每個(gè)比特的消息攜帶了一個(gè)比特的信息。香農(nóng)的信息理論揭示了,任何無(wú)損壓縮技術(shù)不可能讓一比特的消息攜帶超過(guò)一比特的信息。消息的熵乘以消息的長(zhǎng)度決定了消息可以攜帶多少信息。熵的計(jì)算編輯如果有一枚理想的硬幣,其出現(xiàn)正面和反面的機(jī)會(huì)相等,則拋硬幣事件的熵等于其能夠達(dá)到的最大值。我們無(wú)法知道下一個(gè)硬幣拋擲的結(jié)果是什么,因此每一次拋硬幣都是不可預(yù)測(cè)的。因此,使用一枚正常硬幣進(jìn)行若干次拋擲,這個(gè)事件的熵是一比特,因?yàn)榻Y(jié)果不外乎兩個(gè)正面或者反面,可以表示為0, 1編碼,而且兩個(gè)結(jié)果彼此之間相互獨(dú)立。若進(jìn)行n次獨(dú)立實(shí)驗(yàn),則熵為n,因?yàn)榭梢杂瞄L(zhǎng)度為n的比特流表示。1但是如果一枚硬幣的兩面完全相同,那個(gè)這個(gè)系列拋硬幣事件的熵等于零,因?yàn)榻Y(jié)果能被準(zhǔn)確預(yù)測(cè)?,F(xiàn)實(shí)世界里,我們收集到的數(shù)據(jù)的熵介于上面兩種情況之間。另一個(gè)稍微復(fù)雜的例子是假設(shè)一個(gè)隨機(jī)變量X,取三種可能值,概率分別為,那么編碼平均比特長(zhǎng)度是:。其熵為3/2。因此熵實(shí)際是對(duì)隨機(jī)變量的比特量和順次發(fā)生概率相乘再總和的數(shù)學(xué)期望。定義編輯一個(gè)值域?yàn)閤1, .,xn的隨機(jī)變量X的熵值 H 定義為:,其中,E 代表了期望函數(shù),而I(X) 是X的信息量(又稱為信息本體)。I(X) 本身是個(gè)隨機(jī)變量。如果p代表了X的機(jī)率質(zhì)量函數(shù)(probability mass function),則熵的公式可以表示為:在這里b是對(duì)數(shù)所使用的底,通常是 2, 自然常數(shù)e,或是10。當(dāng)b=2,熵的單位是bit;當(dāng)b=e,熵的單位是nat;而當(dāng)b=10,熵的單位是dit。pi=0時(shí),對(duì)于一些i值,對(duì)應(yīng)的被加數(shù)0logb0的值將會(huì)是0,這與極限一致。范例編輯拋硬幣的熵H(X)(即期望自信息),以比特度量,與之相對(duì)的是硬幣的公正度 Pr(X=1).注意圖的最大值取決于分布;在這里,要傳達(dá)一個(gè)公正的拋硬幣結(jié)果至多需要1比特,但要傳達(dá)一個(gè)公正的拋骰子結(jié)果至多需要log2(6)比特。如果有一個(gè)系統(tǒng)S內(nèi)存在多個(gè)事件S = E1,.,En,每個(gè)事件的機(jī)率分布 P = p1, ., pn,則每個(gè)事件本身的訊息(信息本體)為:(對(duì)數(shù)以2為底,單位是比特(bit))(對(duì)數(shù)以為底,單位是納特/nats)如英語(yǔ)有26個(gè)字母,假如每個(gè)字母在文章中出現(xiàn)次數(shù)平均的話,每個(gè)字母的訊息量為:而漢字常用的有2500個(gè),假如每個(gè)漢字在文章中出現(xiàn)次數(shù)平均的話,每個(gè)漢字的信息量為:熵是整個(gè)系統(tǒng)的平均消息量,即:因?yàn)楹蜔崃W(xué)中描述熱力學(xué)熵的玻爾茲曼公式形式一樣,所以也稱為“熵”。如果兩個(gè)系統(tǒng)具有同樣大的消息量,如一篇用不同文字寫的同一文章,由于是所有元素消息量的加和,那么中文文章應(yīng)用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應(yīng)用總體數(shù)量少的字母印刷的文章要短。即使一個(gè)漢字占用兩個(gè)字母的空間,漢字印刷的文章也要比英文字母印刷的用紙少。實(shí)際上每個(gè)字母和每個(gè)漢字在文章中出現(xiàn)的次數(shù)并不平均,因此實(shí)際數(shù)值并不如同上述,但上述計(jì)算是一個(gè)總體概念。使用書寫單元越多的文字,每個(gè)單元所包含的訊息量越大。熵的特性編輯1. 熵均大于等于零,即,。2. 設(shè)N是系統(tǒng)S內(nèi)的事件總數(shù),則熵。當(dāng)且僅當(dāng)p1 = p2 = . = pn時(shí),等號(hào)成立,此時(shí)系統(tǒng)S的熵最大。3. 聯(lián)合熵:,當(dāng)且僅當(dāng)X,Y在統(tǒng)計(jì)學(xué)上相互獨(dú)立時(shí)等號(hào)成立。4. 條件熵:,當(dāng)且僅當(dāng)X、Y在統(tǒng)計(jì)學(xué)上相互獨(dú)立時(shí)等號(hào)成立。和熱力學(xué)熵的聯(lián)系編輯物理學(xué)家和化學(xué)家對(duì)一個(gè)系統(tǒng)自發(fā)地從初始狀態(tài)向前演進(jìn)過(guò)程中,遵循熱力學(xué)第二定律而發(fā)生的熵的變化更感興趣。在傳統(tǒng)熱力學(xué)中,熵被定義為對(duì)系統(tǒng)的宏觀測(cè)定,并沒有涉及概率分布,而概率分布是信息熵的核心定義。根據(jù)Jaynes(1957)的觀點(diǎn),熱力學(xué)熵可以被視為香農(nóng)信息理論的一個(gè)應(yīng)用:熱力學(xué)熵被定義為與要進(jìn)一步確定
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工球賽活動(dòng)方案
- 團(tuán)建聚餐開場(chǎng)活動(dòng)方案
- 周末廣場(chǎng)活動(dòng)方案
- 團(tuán)體轉(zhuǎn)圈跑步活動(dòng)方案
- 商場(chǎng)春節(jié)開業(yè)活動(dòng)方案
- 員工戶外放松活動(dòng)方案
- 喜力啤酒活動(dòng)方案
- 團(tuán)體回歸活動(dòng)方案
- 品牌玩具活動(dòng)方案
- 團(tuán)隊(duì)文化氛圍活動(dòng)方案
- 小學(xué)信息技術(shù)四年級(jí)下冊(cè)教案(全冊(cè))
- 河道保潔船管理制度
- 2025浙江嘉興市海寧市嘉睿人力招聘5人筆試參考題庫(kù)附帶答案詳解析版
- 2025年安徽蚌埠市龍子湖區(qū)東方人力資源有限公司招聘筆試參考題庫(kù)含答案解析
- 2025至2030中國(guó)云計(jì)算行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- 2025中考?xì)v史高頻點(diǎn)速記大全
- 《STP戰(zhàn)略規(guī)劃與應(yīng)用》課件
- 建筑施工安全協(xié)議范本5篇
- 【中學(xué)】【主題班會(huì)】護(hù)紅色根脈 圓復(fù)興夢(mèng)想
- 2025年特種設(shè)備作業(yè)人員氣瓶充裝P證考試題庫(kù)
- 《智能駕駛輔助系統(tǒng)ADAS》課件
評(píng)論
0/150
提交評(píng)論