第一節信息、信息熵、信息量《認知診斷評價理論基礎》全文閱讀

信息（information）是很抽象的概念。信息是事物及其屬性標識的集合。信息能夠幫你逐漸解開頭腦中的疑團，消除你對某個事物認識上的不確定性，並由不確定性逐漸變成較為確定或確定。獲得的信息越多，你對事物的了解就越全麵，越準確。

信息源是信息的源泉或產生待傳送的信息的實體，是提供信息的載體，它無處不在。信息源所涉及的範圍十分廣泛，不僅包括所有的知識，還包括通過我們五官感覺到的一切。任何事物都可以作為信息源。信息接收者（信宿）是信息的歸宿。信息通道負責將信息源信息傳送給信息接收者。

一、信息熵與互信息

信息是一個相對的概念，它自身不能單獨存在，必須依附於一定的載體，而且還要和信息接收者及它所要達到的目的相聯係，這樣才可成為信息。信息論創始人香農（C.Shannon）於1948年從信息接收者的角度定義：“信息是能夠協助信息接收者消除事件不確定性的因素。”因此，信息的價值和大小首先應該是與信息源本身的特性有關的，同時還與具體的認識目的相聯係，它應該能夠為認識某個特定事物提供線索，另外，信息的傳播途徑應該也會影響它的最終價值。

那麽，如何來衡量信息的價值大小呢？人們常常說信息很多，或者信息較少，但卻很難說清楚信息到底有多少。從信息源的角度來說，依照信息論的認識，在日常生活中，極少發生的事件一旦發生是很容易引起人們關注的，如發生海嘯，而司空見慣的事件並不會引起人們的注意，如太陽又從東方升起。也就是說，極少發生的事件所帶來的信息價值越大。如果用統計學的術語來描述，就是發生概率小的事件信息量多。因此，事件發生的概率越小，信息量越大，即信息量的多少是與事件發生頻率（即概率大小）成反比的。

1948年，香農提出了“信息熵”（information entropy）的概念，是信息論中衡量某個事件自身信息大小的重要指標，也稱香農熵。對於有n種可能取值的離散型隨機變量X，香農熵的定義為：

P（xi）是變量X取值為xi的概率，b的取值可以是2、10或其他值。

信息量與信息熵在概念上是有區別的。信息熵是描述信息源本身統計特性的測量，它表示信息源的不確定度，不管有無接收者，它總是客觀存在的量。信息接收者從作為發送者的信息源中獲得的信息量是一個相對的量。信息量是指從多個可能事件中選出一個事件所需要的信息度量或含量。在信息論中，認為信息源輸出的消息是隨機的，即在信息接收者未收到消息之前，不能肯定信息源到底發送什麽樣的消息。而通信的目的就是使信息接收者在接收到消息後，盡可能多地解除接收者對信息源所存在的疑義（不確定度），這個被解除的不確定度實際上就是在通信中所要傳送的信息量。因此，接收到的信息量在無幹擾時，在數值上就等於信息源的信息熵。信息熵是狀態量，其存在是絕對的；信息量是熵增，是過程量，是與信息傳播行為有關的量，往往是針對接收者而言的，所謂接收者獲得了信息，是指接收者收到消息後解除了對信息源的平均不確定度，它具有相對性。

對於信息熵和信息量的說明須引入互信息（mutual information，MI）的概念。在概率論和信息論中，互信息是用於描述兩個隨機變量之間相互依存關係的測量。具體來說，就是一個隨機變量可以通過另一個隨機變量獲取的信息大小。對於離散型隨機變量和，互信息的定義如下：

其中，P（x，y）是隨機變量X和Y的聯合概率函數，P（x）和P（y）分別是隨機變量X和Y的邊際概率分布函數。對於連續型隨機變量，累加形式替換為積分形式，定義如下：

因此，互信息反映了隨機變量X和Y共享信息的程度。也就是已知一個變量的條件下，能夠消除關於另一個變量的不確定度的大小。如果變量X和Y相互獨立，那麽，X對於了解Y不會提供任何信息，反之亦然，這時兩個變量之間的互信息為0。而當變量X是變量Y的確定性函數或變量Y是變量X的確定性函數時，那麽兩個變量之間共享所有信息，通過X就能夠完全了解Y。其實在這種情形下，變量X和Y的互信息就等於各自的信息熵。

根據以上描述，互信息還可以描述如下（具體推導過程請參看相關文獻資料）：

式子中，H（X|Y）和H（Y|X）稱為條件熵，它表示已知Y（或X）以後，對X（或Y）仍存在的不確定度；與互信息相對應，有時候也稱信息熵H（X）或H（Y）為自信息（self-information）或邊際熵；H（X，Y）稱為聯合熵（joint entropy），定義如下：

互信息具有以下三個基本性質。

①非負性：I（X；Y）≥0，即H（X）＞H（X|Y），僅當變量Y與變量X統計獨立時，互信息才為0。

②互信息不大於信息源的熵：I（X；Y）≤H（X），即接收者從信息源中所獲得的信息必不大於信息源本身的熵。

③對稱性：I（X；Y）=I（Y；X），即Y隱含X和X隱含Y的互信息是相等的。

描述信息貢獻關係及其大小的方式還有很多種。除了上麵介紹的信息熵、互信息以及本書前麵介紹的AIC統計量、BIC統計量和DIC統計量外，下麵再介紹幾種在心理測量學理論中比較常見的一些有關衡量信息量的概念。

二、自信息

上麵已經提到自信息（self-information）的概念，然而，與自信息的規範的定義有些差異。自信息反映了對某個隨機變量進行抽樣時的驚異度（surprise）。如果信息接收者預先完全掌握了接收的信息，那麽，當你再次傳遞該信息時，對信息接收者來說就沒有任何信息價值了。隻有當信息接收者對即將接收的信息不完全了解時，該信息才有價值，才會產生驚異。自信息用來衡量某變量中單一事件發生時所包含的信息量的多少。

對於某變量X，事件xi∈X，其發生概率為P（xi），那麽該事件的自信息定義為：

由此可知，事件xi發生的概率越小，那麽，當該事件真實發生時，其傳遞的自信息量就越大。因此，自信息有時可叫驚異（surprisal）。

對於離散型隨機變量，某個事件的自信息的期望（expected value）就是信息熵，它反映了對一個隨機變量進行抽樣時產生的平均驚異（不確定度）。有時候，信息熵本身也會叫自信息，這可能是因為信息熵滿足以下條件：H（X）=I（X；X），I（X；X）代表了變量X自身的互信息。

三、KL散度

KL散度（Kullback-Leibler divergence，相對熵，relative entropy，S.Kullback & R.Leibler，1951）是用於描述兩個概率分布差異的一種方法，它描述了某概率分布擬合理論真實概率分布的程度。概率分布Q擬合理論真實概率分布P的KL散度一般表示為DKL（P‖Q）。從貝葉斯推理理論來說，DKL（P‖Q）可以表示用後驗概率分布P代替先驗概率分布Q所獲得的增量信息，也就是當用Q來估計P時可能帶來的信息損失量，在這裏，P代表了真實的數據觀察，而Q代表了一個理論估計或P的近似估計。在信息論中，DKL（P‖Q）表示當用概率分布Q來擬合真實分布P時，產生的信息損耗。

對於兩個離散變量概率分布Q和P，KL散度定義為：

對於兩個連續變量概率分布Q和P，KL散度定義為：

KL散度有幾個重要的性質：①KL散度是非對稱的，這意味著DKL（P‖Q）≠DKL（Q‖P）；②非負性，即DKL（P‖Q）≥0；③即使對於連續變量，KL散度仍是良定義的（函數關係無歧義），參數轉換也不會改變其性質；④對於獨立分布，KL散度是可累加的。

四、Fisher信息

假設一批樣本數據來自某一個分布，未知參數θ定義了該分布，那麽，我們就可以利用樣本數據中蘊含的信息來估計該未知參數。這時候，一個自然的問題就是：對於估計這個未知參數，這批樣本數據能夠提供多少信息呢？Fisher信息就是用於衡量這樣的“信息”關係。

我們以f（x；θ）表示以θ取值為條件的x的概率密度函數，這也就是關於θ的似然函數，也就是當給定θ的某個取值時，獲得觀察數據x的概率。如果隨著變量θ取值的變化，f函數分布的形態非常高聳，那麽，我們就能夠很快、很容易地發現和確認函數極值及其對應的未知參數的真實估計值，這也說明這批數據能夠給未知參數提供較大的信息量。如果似然函數f的分布形態非常扁平，這時，為了獲得關於未知參數θ的穩定的估計值（小的估計誤差，大的信息量），我們就必須增加大量的樣本數據。由此可以發現，未知參數θ的估計似乎與某種方差量有關。

Fisher信息一般用I（θ）表示，Fisher信息就定義為Score函數的二階矩，即I（θ）=E[S（x；θ）2]，於是可知，Score函數的絕對值越大，Fisher信息越大。

在一定的正則條件下，Score函數一階矩（期望）會等於0，即E[S（x；θ）2]=0，於是10-9式就自然成立：

根據上式，Fisher信息也可以定義為Score函數的方差。同時還知道其取值範圍為0≤I（θ）＜∞。

如果對數似然函數log f（x；θ）二階可導，在一定的正則條件下，Fisher信息還可以寫為：

於是，Fisher信息可以被解釋為對數似然函數曲線的曲率。如果通過對數似然函數曲線來進行直觀解釋，在極大似然估計值附近，大的Fisher信息意味著函數極值附近的曲線形狀顯得比較高而尖，而小的Fisher信息意味著極值附近的曲線形狀比較扁平，也就是說，會有更多未知參數估計值的似然函數值與極值非常接近。

如果數據是由n個參數來定義的，那麽，未知參數θ就是一個n×1的向量，即θ=[θ1，θ2，…，θn]T，這時的Fisher信息就是n×n階的Fisher信息矩陣（FIM），矩陣中元素為：

FIM為n×n階的半正定對稱矩陣。在一定的正則條件下，FIM元素也可以表示如下：

如果FIM矩陣中的第i行第j列元素為0，那麽，我們就認為參數θi和參數θj相互獨立，是正交的。在這種情形下，他們的極大似然估計值就是相互獨立的，我們就可以對這兩類參數分開進行獨立估計，這可以大大簡化參數估計的複雜度。

柏努利（Bernoulli）試驗是隻有兩種可能結果的試驗。記X為一個柏努利試驗，其中一種結果發生的概率記為θ，X試驗的Fisher信息計算方式為：

由於Fisher信息是可加的，因此，n次獨立的柏努利試驗的Fisher信息表達如下：

五、Fisher信息與相對熵KL散度之間的關係

設有概率分布族f（x；θ），θ為定義分布的參數。那麽，屬於同一分布族的兩個分布之間的KL散度可以表示為：

如果θ已知，那麽，當θ′=θ時，上麵定義的KL散度將達到最小的0（KL散度是非負的）。

而Fisher信息矩陣可以表示如下：

Fisher信息表示了KL散度的曲率。

六、香農熵與相對熵KL散度之間的關係

與前文的表示方法一致，香農熵與KL散度的關係可以表示如下：

式子右邊表示為了從N個等概率的均勻分布PU（X）中而不是P（X）中識別X需要增加的信息量。P（X）表示X的真實分布。

七、互信息與相對熵KL散度之間的關係

與前文的表示方法一致，互信息與KL散度的關係可以表示如下：

式子右邊表示兩個邊際概率分布與其聯合概率分布之間的散度。

八、條件熵與相對熵KL散度之間的關係

與前文的表示方法一致，條件熵與KL散度的關係可以表示如下：

式子右邊表示為了從N個等概率的均勻分布PU（X）中而不是P（X|Y）中識別X需要增加的信息量。P（X|Y）表示X的真實分布。

第一節 信息、信息熵、信息量

第一節信息、信息熵、信息量