第二節項目參數的條件估計《認知診斷評價理論基礎》全文閱讀

所謂參數的條件估計，就是在某些參數已經確定的條件下，估計模型中的未知參數。在認知診斷評價理論模型中，參數的條件估計有兩種情形：一種是在被試屬性掌握模式等參數已經確定的條件下，估計模型中的項目參數；另一種情形就是，在項目參數已經確定的條件下，估計被試屬性掌握模式等參數。

項目參數的條件估計方法主要有兩種：一種就是基於已經確定的被試參數條件，利用樣本作答反應數據，直接求取基於項目反應函數的似然函數極大值點對應的項目參數，稱為經典條件估計；另一種是基於邊際分布的極大似然估計方法，稱為邊際極大似然估計（marginal maximum likelihood estimation，MMLE）。本節隻介紹邊際極大似然估計及其EM算法。

一、邊際分布

邊際極大似然估計仍然是在極大似然估計方法的架構之下估計項目參數，但是在提供被試參數作為已知信息時，結合了貝葉斯統計思想。邊際極大似然估計是以邊際分布（marginal distribution）為基礎的。因此，我們首先需要明白邊際分布的概念。首先看一下表7-1。

表7-1 邊際分布示意表

表7-1包含了兩個離散型變量：變量ξ和變量η。pij為兩個變量的聯合分布列，而聯合分布列的右側一列，即pi·是由第i行pij對j相加得到，它表示變量ξ的分布列，相應地，在聯合分布列的低端一行，即p·j是由第j列pij對i相加得到，它表示變量η的分布列。通過這種表示方式，變量ξ和η各自的分布列就在聯合分布列（ξ，η）的邊上，因而，人們就形象地稱變量ξ和η各自的分布列是聯合分布列（ξ，η）的邊際分布。

由以上可以知道，如果已經知道二維變量的聯合分布列，那麽，單個分量的邊際分布列也就可以根據聯合分布列得到。當然，已知所有單個變量的分布列，卻並不能唯一確定兩個變量的聯合分布列，這一點，從表7-1中也是容易直觀地看出來的。

現在回到項目參數的估計問題上來。假設已獲得n個被試在m個項目上的測驗作答得分矩陣U，共包括r種不同的被試作答反應模式（response pattern，由於有些作答反應模式可能重複出現，因此r不一定等於n），記第1種作答反應模式為ul（l=1，2，…，r）。那麽，對於屬性掌握模式為αv（v=1，2，…，2K；K為測驗屬性個數）的被試，其得到作答反應模式為ul（作答反應模式個數不一定等於屬性掌握模式個數，因為有些屬性掌握模式對應的作答反應模式可能沒有實際出現）的概率為：

如果借鑒貝葉斯統計思想，把得到作答反應模式ul的被試屬性掌握模式αv看作來自一個已知分布的隨機變量，而不是某個固定的常數。這時，由於隨機變量可以取各種不同的值，當然，根據該隨機變量的已知分布，各種取值的概率是不一樣的（均勻分布除外），而且各種取值對於得到某個具體的作答模式ul的概率也是不一樣的。假設該已知分布的密度函數為g（αv），這也就是屬性掌握模式αv的先驗分布，於是，就可以得到來自隨機變量的某個屬性掌握模式αv在作答反應模式ul上的概率函數為：

進一步地，可以得到關於某作答反應模式ul的邊際概率函數（unconditional or marginal probability）如下：

然而，由於屬性掌握模式αv的概率分布是離散的，因此，根據αv的先驗分布g（αv）對所有可能的屬性掌握模式的條件似然函數進行加權累加，這相當於基於單維連續變量的條件似然函數的積分過程。於是式（7-10）重寫為：

其實，即使是連續變量的積分，在計算機實現的過程中，也總是會轉換為加權累加的形式。比如，對項目反應理論中的連續變量——被試能力水平進行積分時，在計算機實際實現過程中，無窮積分一般就會采用基於有限積點（quadrature points）和相應積點係數（coefficients）或權重（weight）的高斯-厄米特（Gauss-Hermite）數值積分算法進行近似估計。對於正態密度函數，經驗上一般會在某個合理範圍內，采集40個積點，包括20個正積點、20個負積點，對積分進行近似計算。於是，式（7-10）總是可以轉換成如式（7-12）所示的用高斯-厄米特數值積分算法進行的近似估計：

其中，Xk為在連續變量上選擇的代表性積點，在此例中代替具體的θ取值，q為積點個數，A（Xk）為積點對應的係數或權重，且有：

其實，從幾何解釋的角度，定積分就是求概率函數曲線在某個區間內與橫軸所圍成的區域麵積，如圖7-2所示。

圖7-2 函數的定積分解析圖

對於連續型隨機變量來說，其概率函數曲線也是連續的，這時，概率函數曲線在某個區間內與橫軸所圍成的區域麵積的求取，就可以通過以下方式得到：首先，把這個區間分成有限個更小的區間；然後，求取這些小區間的麵積，並累加後得到整個麵積的值。如果這些小區間的間距足夠小，那麽，這個區間橫軸的中值就可以作為該區間的代表值（積點），這個區間的麵積就可以作為這個代表值的權重（積點係數）。這個區間的麵積經常可以通過查相關變量的函數分布表來得到，從而用這些積點和積點係數代替積分過程進行運算。

二、邊際極大似然估計及其EM算法

有了以上這些認識基礎之後，我們就可以開始對邊際極大似然估計進行具體的介紹。接下來的內容將分成兩個部分：首先，介紹邊際極大似然估計及其EM算法的提出；其次，結合認知診斷評價理論中的DINA模型，解釋邊際極大似然估計及其EM算法在DINA模型項目參數估計中的應用。

按照被試參數作為已知條件的呈現模式，可以把估計項目參數的方法分為兩種：①把被試看作來自某個已知分布總體的代表性隨機樣本，於是可以通過基於對該已知分布進行積分的方式來估計項目參數；②把被試看作一個未知分布的隨意（arbitrary，注意不是隨機）樣本，按照聯合極大似然估計的方式同時估計被試參數和項目參數。在這兩種方法中，第二種方法在實際應用中可能存在很大問題。在參數估計中，項目參數被認為是結構參數（structural parameter），根據某個測試規劃命製好的測驗一般不會隨意改動，其結構和參數是相對固定的，可以當作穩定參照的工具，測驗的項目數量一般也是固定的且規模較小。而被試參數被認為是討厭參數（nuisance parameter），如果被試是一個隨意樣本，那麽，每增加一個被試就會增加一個隨意參數，導致項目參數無法獲得穩定的一致性估計，這就違反了項目反應理論參數不變性的特性。基於第一種方法的極大似然估計，稱為邊際極大似然估計，它能夠保證關於項目參數的一致性估計，因此成為現在參數估計中應用較廣的方法之一。

要實現參數的邊際極大似然估計，首先需要構建基於邊際分布的似然函數。

鮑克和列波曼首次使用基於邊際分布的極大似然估計方法，來估計雙參數正態肩型模型（normal ogive model）的項目參數。在對被試作答數據進行分析時，主要關注被試在所有題目上的整體作答反應模式（response pattern），以及在各種作答反應模式上的被試分布狀態，或者叫作答模式分布，認為相同作答模式的被試的能力水平也是相同的，不同的作答模式的被試的能力水平也是不同的，被試能力與作答模式之間理論上應該是對應關係。從樣本的角度看，這種方法關注在每種作答模式上有多少個被試，以及整個被試作答模式的分布狀態。當然，作為具體計算時的項目反應模型仍然是基於單個項目的。作為二值記分題目類型，每個題目的作答結果隻有兩種可能：對（得1分）和錯（得0分）。這樣，被試在M個題目上的所有作答模式一共就有2M種可能。但是，對於某批被試在某次具體測驗上的作答結果來說，最終的樣本得分矩陣可能出現以下情形：有些作答模式根本沒有出現，而有些作答模式則出現許多次。在建構基於作答模式的似然函數時，應該要注意這種情形的存在。

在測驗作答得分矩陣U的基礎上，可以獲得被試作答模式樣本分布狀態。假設某種作答模式的觀察次數為rl（l=1，2，…，r），相應地，該作答模式的實際樣本觀察比例為P（ul）=rl/N。就像前麵在分析某個作答反應模式ul的被試時，將αv看作一個已知分布的隨機變量一樣，現在從另外一個角度來分析整個測驗的作答得分模式。假設把全部N個作答被試看作他們所代表總體的一個隨機樣本，那麽，期望落於某種具體作答模式的被試比例就應該是P（ul）=E[p（ul）]，即觀察比例的期望，這個期望比例其實來自前麵已經講到的關於作答模式ul的邊際分布，即式（7-10）。實際作答樣本中相應模式的期望作答被試次數就應該是：

在以上分析的基礎上，可以對當前得分矩陣建立如下式子：

這個式子表示的就是基於邊際分布的聯合似然函數。式（7-10）中，被試參數信息已經通過其已知概率分布函數加權累加的形式作為已知條件給出，因此，這個式子中的未知參數就隻有項目參數了。

建立了如式（7-15）所示的似然函數後，接下來的工作就是找到能夠使似然函數值達到極大值點所對應的項目參數估計值。這個問題的解決同樣可以轉化為求解似然函數對未知參數的一階導並令其為0的方程根問題，而這個問題又同樣可以通過牛頓-拉夫遜迭代的方法加以解決，當參數的迭代校正值小於某個預先設定的估計誤差時，得到的參數估計值就是能夠使似然函數值達到最大的項目參數的最終估計值。具體的解決過程可以閱讀我們在下麵即將要介紹的鮑克和阿特金基於該方法的參數估計改進實現方案。

鮑克和列波曼首次使用基於邊際分布的極大似然估計方法，來估計雙參數正態肩型模型的項目參數。他們假設樣本被試來自服從正態分布的總體，不過，他們在應用中隻分析了5個項目。鮑克和列波曼指出，參數的邊際極大似然估計方法本身雖然有很大的優勢，但他們所提出的參數的極大似然估計實現方案，卻很難在實際項目分析工作中得到廣泛的應用。按照他們所提供的參數估計解決方案，在每次測驗分析中，題目數量不能超過10道或12道，因為在鮑克和列波曼的項目參數估計迭代方案中，需要構建一個3M×3M（M為測驗題目量）的信息矩陣（二階導矩陣），並對它求逆，而矩陣中的每個元素又包含2M（所有可能的作答模式數）次累加和計算過程。因此，題目量過多將造成矩陣過大、矩陣運算困難的問題。但是，最多12道題的題目量在心理與教育的實際測驗中是很少見的。所以他們認為提出邊際極大似然估計方法，主要是為了進行理論研究探索，以及在同等條件下與其他方法進行比較。不過後來，對該方法進行了改進，使其能夠靈活地適應於各種實際數據分析情境。

鮑克和阿特金對鮑克和列波曼方法的改進主要體現在三個方麵。首先，假設被試之間、題目之間以及被試與題目之間均服從局部和相互獨立原則，這樣就解決了參數估計中矩陣過大的問題，因為在局部獨立原則成立條件下，可以逐個項目地進行參數估計，而每個項目的參數估計過程涉及的矩陣運算即使在IRT三參數模型下也隻有3×3個元素。這樣，這種方法就可以運用於大批量項目分析的情形了。

鮑克和阿特金方案的第二個改進，主要就是基於他們關於被試、題目之間獨立性的假設基礎上，針對似然函數式子本身的具體處理技術。鮑克和列波曼所建立的似然函數關於項目參數的一階導函數及其方程式子形式統一如下式所示：

式子對積分項用高斯-厄米特數值積分進行了近似處理。式子中，ξi代表項目參數，可以用項目反應模型中涉及的不同項目參數分別代替；Φi（xk）為項目反應函數，在這裏專門指的是IRT正態肩型曲線函數；zi（xk）=ai（xk-bi）為正態肩型曲線函數式中的一項（這一項中的ai、bi分別表示IRT模型項目區分度參數和難度參數），xk為選擇的數值積分積點，A（xk）為相應的積點係數或積點權重，式子中，

Ll（xk）為當能力取值為xk時，作答模式l的聯合概率。

鮑克和阿特金在對以上式子進行處理時，首先假設所有的被試根據作答反應模式被合理地分成了若幹組，各組內被試完全同質，各組之間相互獨立，且各組的能力水平記為xk。在這個假設基礎上，不同項目的難度和區分度參數就可以分開來獨立估計。於是，進一步可以得到對數似然函數關於項目難度參數和區分度參數的一階導函數式子，令其等於0所得方程分別如下所示：

參數的信息矩陣為：

其中，

對比式（7-18）、式（7-19）與式（7-16），同時把式（7-16）的A（xk）項乘入式子的分子項，於是便得到以下兩個相互對應的式子：

鮑克和阿特金方案的第三個方麵的改進，是在以上式子的基礎上，提出了具體實現項目參數估計的一個新的算法，即EM算法。依據這個算法，每個項目參數一次小循環的估計過程包括了以下兩個步驟。

M步：也就是似然函數極大化過程。利用E步算出的值，根據上麵提供的一階導式子和信息矩陣，用牛頓-拉夫遜迭代算法，估計項目參數。當然，如果一階導方程可以直接解出未知參數的值，那就不需要經曆麻煩的迭代步驟。

當然，在每個EM步外麵還有一個大循環過程，就是要使兩次相鄰迭代的所有項目參數所計算的似然函數值之間差異足夠小。

從上麵可以看出，鮑克和阿特金關於項目參數估計的EM算法，是在兩個不同假設條件下的一階導式子之間的對應關係基礎上提出來的。另外，在處理指數概率模型族的參數的極大似然估計過程中，當參數的估計出現缺失信息時，有人提出了不完整數據處理的EM算法。鮑克和阿特金基於這個缺失數據處理原理的角度，也提出了與我們上麵講到的相同的EM參數估計步驟。

在認知診斷評價理論中，被試在測驗項目上的作答被分成不同的作答反應模式，每種作答反應模式對應一種屬性掌握模式，所有相同作答反應模式的被試的屬性掌握模式也是相同的。同時假定被試之間的作答是局部獨立的，項目之間的作答也是局部獨立的。

三、邊際極大似然估計示例

接下來，結合認知診斷評價理論中的DINA模型，並依據了德拉托爾（de la Torre，2009）的推導結果，解釋邊際極大似然估計及其EM算法在DINA模型項目參數估計中的應用。

DINA模型是一個比較節儉的模型，模型中的被試參數為屬性掌握模式，項目參數包括猜測參數和失誤參數。

首先，將DINA模型的項目反應函數重新表示為：

然後，建立作答矩陣的邊際似然函數：

式子中，L（uj）為被試j作答反應模式的邊際似然函數，g（αv）為屬性掌握模式αv的先驗分布。由於αv是離散變量，因此邊際概率積分運算變為累加運算。將上式轉化為對數似然函數形式：

接下來就是，找到使對數似然函數達到極大值點的項目參數估計值βiη。於是求對數似然函數對未知項目參數的一階導函數：

對於DINA模型來說，雖然每個被試的屬性掌握模式可能不同，但在某個具體項目上，所有被試的屬性掌握模式可以分為兩種：掌握了項目要求的所有屬性（記為η=1）；未掌握項目要求的所有屬性（記為η=0）。相應地，項目反應函數的取值情形也隻有兩種：當被試掌握了項目要求的所有屬性時，Pi（αv）=1-si；當被試未掌握項目要求的所有屬性時，Pi（αv）=gi。因此，式（7-27）可以進一步表示為：

當式（7-28）一階導函數中是對項目參數g求導時，式子右邊第二項就等於0。於是，求極大化似然函數logL（U）的項目參數gi值，就是計算出讓如下一階導方程式子成立的gi估計值：

經化簡移項後，可得：

同樣地，當式（7-28）一階導函數中是對項目參數s求導時，式子右邊第一項就等於0。於是，求極大化似然函數logL（U）的項目參數si值，就是計算出讓如下一階導方程式子成立的si估計值。

經化簡移項後，可得：

邊際極大似然估計的關鍵是根據作答反應模式構建邊際似然函數。而EM算法的關鍵是構建兩個人工參數R和N。

第二節 項目參數的條件估計

第二節項目參數的條件估計