一、極大似然估計

關於極大似然估計,我們可以先看一個例子:

某位同學與一位獵人一起外出打獵時,一隻野兔從前方竄過。隻聽一聲槍響,野兔應聲倒下,如果讓你推測,這一發命中的子彈是誰打的,你就會想,隻發一槍便打中,由於獵人命中的概率一般大於這位同學命中的概率,看來這一槍是獵人打的。

在上述例子中,關於結果所做的推斷(執果尋因)就體現了極大似然估計的基本思想。

我們以DINA模型為例,通過估計其項目參數來講解極大似然估計的原理和過程。

若我們已獲得所有被試在測驗第i題上的作答得分向量(x1,x2,x3,…,xn),以及所有被試的屬性掌握模式αj(j=1,2,…,n),該題的屬性向量為qi。我們的目標是估計未知的項目參數βiη。

因此,求項目參數βiη的估計值的問題,就變成了求似然函數L(βiη)的最大值的問題。而求函數極大值的問題,隻要導函數存在,一般就會轉化為求函數對未知參數的一階導並令其為0的方程根的問題。所以,求上麵這個似然函數極值的問題可通過解下麵這個方程:

來解決。解這個方程得到的βiη值,就是項目參數的合理估計值。

似然函數式(7-2)為概率的連乘積,如果對該似然函數式取對數,則可以轉換為概率連加和的形式,這將大大簡化計算過程。而且,因為lnL是L的增函數,所以,lnL與L會在相同位置取得最大值。我們稱l(βiη)=lnL(βiη)為對數似然函數(log-likelihood function)。因此,我們常將方程(7-3)寫成:

方程(7-4)稱為對數似然方程。解方程(7-4)或(7-3)得到的值,就是項目參數的極大似然估計值。

總結求極大似然估計值的一般步驟如下:

①導出樣本結果的聯合概率函數(或聯合密度);

②把樣本聯合概率函數(或聯合密度)中因變量看作已知常數,而把未知參數看作自變量,得到似然函數;

③求似然函數的極大值點(常轉化為求對數似然函數的極大值點);

④在極大值點的表達式中,將樣本值代入就得到參數的極大似然估計值。

二、牛頓-拉夫遜迭代

解似然方程的過程經常會用到迭代算法。運用最多的迭代算法就是牛頓-拉夫遜迭代方法。牛頓-拉夫遜迭代方法是在解牛頓迭代式基礎上進行的。設r是f(x)=0的真實根,但這個根有時候很難或無法通過直接解方程的方法求出來,於是我們會采用迭代算法,以得到r的一個近似估計值。迭代的過程如下:首先,選取x0作為r的初始近似值;然後,過點[x0,f(x0)]做曲線y=f(x)的切線L,可以知道L的方程為y=f(x0)+f′(x0)(x-x0),於是,可以求出切線L與軸交點的橫坐標x1=x0-f(x0)/f′(x0),稱x1為r的一次迭代近似值。接著,過點[x1,f(x1)]再次做曲線y=f(x)的切線,並求該切線與x軸交點的橫坐標x2=x1-f(x1)/f′(x1),稱x2為r的二次迭代近似值。重複以上過程,就可以得到r的一個近似值序列(x1,x2,…,xn,xn+1),其中,

稱為r的第n+1次迭代近似值,式(7-5)亦稱為牛頓迭代式,而式(7-6),

也就成為迭代過程中估計值的校正公式。當然,迭代過程不可能無休止地進行下去,必須設定一個中止規則。常用的中止規則就是,當相鄰的兩個迭代近似值之間的差異小於某個足夠小的預先設定值,如0.01時,中止迭代過程,也就是迭代校正公式中ε<0.01,以最新的迭代近似值作為方程f(x)=0的根r的一個近似估計值。我們可以將以上迭代算法的過程通過幾何圖形的形式加以直觀解釋,如圖7-1所示。

圖7-1 牛頓迭代過程圖

求函數極值問題經常會轉化為求函數的一階導問題。類似地,在求使似然函數值達到極值時對應的參數值時,也經常把該問題轉換為求似然函數對該未知參數的一階導並令函數值為0時對應的方程的根,而求這個根的過程就經常使用牛頓迭代算法。當然,如果可以直接解出一階導方程的根,那就不需要經曆迭代過程。

三、貝葉斯估計、先驗分布、後驗分布

學習貝葉斯估計首先需要了解先驗分布和後驗分布的概念。

貝葉斯估計是基於貝葉斯統計思想的估計方法。先驗分布是貝葉斯統計的基礎概念。貝葉斯統計理論認為,關於總體參數的任何統計推斷,除了使用試驗樣本所提供的信息之外,還必須規定一個關於該參數的先驗分布,它是在進行總體參數統計推斷時不可或缺的信息。先驗分布是在獲得試驗樣本數據信息之前就已經掌握了的關於對總體參數分布的認識。

所謂參數的後驗分布,是根據試驗樣本數據信息和未知參數的先驗分布信息,用概率論中的貝葉斯定理求條件概率分布,求出在已有試驗樣本數據信息的情況下,關於未知參數的條件分布。由於關於未知參數的條件分布是在已經獲得試驗樣本數據信息之後才求得的,因此稱為未知參數的後驗分布。貝葉斯統計推斷的基礎就是,關於未知參數的任何統計推斷都必須且隻能根據該參數的後驗分布進行,而不能隻涉及其樣本信息。貝葉斯統計模型如下:

式(7-7)中,P(A)表示未知事件A的先驗分布信息,P(B)表示試驗樣本B的分布信息,P(B|A)表示在事件A發生的條件下,試驗樣本B的發生概率。P(A|B)表示在獲得了試驗樣本數據信息的條件下,可以對與該結果相關聯的未知事件A發生的概率重新進行調整估計。

貝葉斯統計模型綜合了先驗分布信息和通過試驗獲得的實際樣本數據信息,從而獲得後驗分布信息,並以後驗概率P(A|B)的形式體現出來。因此,貝葉斯統計模型反映了在獲得了實際試驗數據信息的條件下,先驗分布向後驗分布的轉化過程。試驗樣本信息在這裏的唯一作用就是把對未知參數的認識由僅有的先驗分布向後驗分布轉化。

根據以上介紹可以了解到,關於參數的認識,傳統統計推斷理論是基於大樣本理論的,認為要估計的參數是一個未知但卻是確定的唯一值,並不具有隨機性,估計的任務就是把這個值找出來。而基於貝葉斯理論的估計方法把要估計的未知參數看作一個隨機變量,這個變量可能取各種不同的值,同時,這個隨機變量有一個伴隨的已知的先驗分布信息,也就是關於該隨機變量取各種值的概率信息。貝葉斯統計推斷方法關於參數的估計完全是基於後驗分布的,而後驗分布中的關鍵因素就是試驗樣本數據信息和參數的先驗分布信息。在實際進行參數估計時,未知參數的試驗樣本信息一般是已經準備好的,是確定已知的,而對未知參數的先驗分布信息的選擇就需要深入思考,謹慎對待。隻有關於未知參數的正確的先驗分布信息,才能保證構造出正確的後驗分布,而正確的後驗分布才能保證得出正確的參數估計結果。比如,關於被試能力水平參數的先驗分布一般認為是正態分布,如果在構造後驗分布時選擇偏態分布,那麽可能會導致貝葉斯方法做出錯誤的統計推斷。

貝葉斯估計相對於經典學派的估計方法有什麽優勢呢?經典統計學派認為概率是事件在大量獨立重複試驗基礎上所發生的頻率的穩定值。貝葉斯學派當然也承認這一觀點,但他們更加強調主體主觀認知的作用。因此,在擁有大規模試驗樣本數據的情況下,傳統統計估計方法的結果可以得到比較好的保障。然而,在實踐當中,我們經常無法保證進行大規模的重複試驗能獲得大規模的試驗樣本數據,經常的情況是我們隻能擁有小樣本觀察數據。在小樣本的情況下,傳統統計估計方法就無法保障得到的結果是準確的,因此需要探索一種更加穩定的估計方法。結合人們過去對未知參數的經驗,根據人們過去積累的認識給出關於未知參數的較穩定合理的解釋,是一種比較好的做法。其實,在日常判斷決策中,人們也經常是在麵對當前情形時,還會根據以往的經驗認識做出決定。

總之,貝葉斯估計是根據某個隨機變量的樣本觀測信息,並結合其先驗信息,通過後驗分布估計其可能取值的過程。