認知診斷評價理論提出了諸多的模型,每種模型都有與之相適應的問題情境。在選擇一個合理的模型之前,首先需要分析問題情境,檢驗模型是否很好地描述了該問題情境。隻有模型和問題情境之間相互適應,基於該模型進行的數據分析和結果評價才是有效的,否則其結果就會偏離評價的目標,產生誤導。

一、作答過程真實性檢驗

在測量過程中,被試真實地表達自己的能力水平或意願,是保證測量結果和評價過程準確性的基礎。

檢驗被試作答過程是否真實的最直接的方法,就是通過客觀取證的手段,即重要的測量項目在嚴格的監控條件下進行,通過監控直接觀察被試的作答狀態。在許多情形下,通過直接查看監控以發現被試作答真實性是難以實現的,特別是當測量的對象規模非常大時,這時就需要通過能夠進行大規模篩查的方法進行甄別。當然,有些不真實作答即使通過監控也是很難辨別的,如不認真地隨機作答。

另外,可以從測量的具體過程進行分析,檢查測試過程是否能夠保證激發被試足夠的動機以盡量真實地表現自己的特質水平。首先,要看測試的目的是什麽,如果測試是用於研究的,那麽被試的行為動機可能就沒有那麽強烈,導致作答結果不能完全反映被試的真實能力水平。如果測試是用於選拔、達標等可能影響被試自身利益的,那麽就可能激發被試強烈的行為動機,從而使被試盡量真實地表現自己的能力水平。當然,對於社會傾向性測驗,其作答情形可能正好相反,即被試在作答這類測驗時,特別是當測驗結果可能會影響自身的前途時,被試往往會企圖掩蓋自己的不足,做出符合社會一般期許的反應。對於測驗目的可能給測驗數據造成不同結果的問題,我們需要謹慎地對待。我們很多時候收集數據都是用於研究的,相比用於選拔等的測驗,其結果的測量誤差一般會更大,信度也會更低,當然效度也就會受到影響。麥克丹尼爾(McDaniel)等人就通過元分析發現,麵試成績對工作績效的預測效度由於目的不同(研究目的和管理目的)而存在顯著差異。所以,用於不同目的的測驗一般不宜直接進行比較,需要首先進行必要的校正。其次,要檢查測驗施測時使用的指導語能否激發被試的作答動機,有些測驗即使是用於研究的,我們也可以通過恰當的指導語來激發被試足夠的作答動機。一般來說,除了一般需要說明的指導語之外,通過以下方法可以盡量地獲得被試的真實作答反應:①讓與被試有密切關係的人作為主試宣讀指導語並監控測試過程;②明確說明研究的意義,意義的表達必須能夠引起被試的關注,許多研究的意義可以從長遠意義和社會意義的角度進行闡述;③明確表達研究的艱巨性,以及被試的作答對研究成敗的關鍵性作用;④明確說明被試作答之後將會獲得獎賞;⑤明確說明作答結果完全保密,且絕對不用於個人評價,並親筆簽上研究者的姓名(不能打印和複印)以做出承諾。另外,檢查測試時的客觀環境是否能夠激發學生的作答動機也是非常重要的。在組織測試時,應該首先獲得與被試關係密切者的積極支持和配合,在這方麵應該花較多的時間進行溝通和商談,並得到正式的支持承諾。測試最好不要安排在被試的休閑時間,測試的過程和形式應該讓被試感覺到非常正規,還要注意測試地點的布置和安排不要影響被試正常作答。最後,要檢查是否保證了足夠的測試時間,以便被試能夠充分發揮正常水平來作答所有測驗項目。關於測驗測試的時間,首先需要有經驗的測驗編製者進行主觀估計,同時,還必須進行預測試以獲取測試真實的正常時間。

我們還可以通過事後數據分析,檢查是否存在作答數據不夠真實的證據。數據分析可以主要從兩個角度進行。首先,從數據描述的角度,可以從以下幾個方麵進行檢查:①測驗是否存在大量未作答情形,有經驗的測驗設計和編製者一般會較好地考慮到測試時間的合理安排。在這種情況下,如果作答數據中仍然出現大量未作答情形,那麽,我們有理由相信被試沒有認真作答。②被試總體得分分布偏離預想。一般情況下,研究者總是想選擇一批特質水平分布較寬的被試,因此會通過預先調查來選擇合適的被試。然而,如果被試的實際作答結果嚴重偏離研究者的預想,這也可能成為我們懷疑被試作答過程真實性的證據。③被試個體在各個項目上的作答沒有規律。研究者在設計測試項目時,總是會根據自己的經驗設計不同難度或不同維度的項目。然而,如果被試在所有項目上的作答結果沒有表現出符合預期的規律,那麽,我們也可以懷疑他沒有認真作答。④被試作答結果存在形式上的規律性,如選擇題的答案全部一致,或答案循環安排,如“ABC-ABC-ABC”的作答形式,這也可以作為被試未認真作答的證據。從數據推斷的角度,可以從以下兩個方麵進行檢查:①回訪。研究者可以在測試以外的時間回訪部分參與測試的被試,探查他們當時真實的作答態度和原因。當然,這個回訪一定要在完全放鬆的環境下進行,讓回訪對象完全放鬆,不存在任何顧慮。關於訪談的方法和技巧,可以參考相關文獻的內容。②效度驗證。研究者可以收集一些關於測驗的效標數據,如被試的老師對他們平時表現的評定、期末考試成績、性格評定,等等。通過與這些效標證據的比較,可以大致看出被試的作答過程是否表現真實。

現在有許多學者研究了使用統計方法檢驗被試作答結果的真實性。這種方法一般需要首先建立真實作答狀態下的理論模式,然後通過鑒別各種實際作答模式與理論模式之間的距離,從而做出作答真實性程度的判斷。

龍岡(Tatsuoka,1996)在其提出的認知診斷方法中構建了一個個人作答模式擬合指數——ζ,用於鑒別被試的非正常作答模式。我們可以將其作為一個檢驗被試作答真實性的統計指標加以應用。由於後麵的章節會詳細介紹該指標,因此,這裏隻是簡單介紹這個指標在檢驗作答真實性時的可能應用。

將f(X)重寫為X的線性函數形式:

對於能力值為θi的被試,函數f(x)的期望為0,其方差為:

於是,作答模式擬合指數ζ就定義為函數f(X)的標準化形式:

根據上麵的定義,我們可以注意到,當固定某個被試時,T(θ)、K(θ)和Var[f(X)]均為常數,而P(θ)也是固定的向量。也就是說,當我們在驗證某個作答模式是否異常時,ζ指數隻受到實際觀察作答模式X與期望作答模式P(θ)之間一致性程度的影響。當X與P(θ)越保持一致變化趨勢時,f(X)越小;當X的大小順序偏離P(θ)的大小趨勢時,f(X)就會增大。需要再次提醒的是,f(X)的期望為0,但實際上f(X)可能會取正值,也可能會取負值。

作答模式擬合指數ζ反映了被試實際作答模式偏離理論作答模式的程度,如果ζ值比較大,研究者就應該懷疑該被試的實際作答模式是不正常的。那麽,究竟ζ值多大才應該被懷疑呢?這可能需要根據整個測試群體的ζ值分布,同時結合往年根據經驗發現的非正常作答比例來協助判斷。但無論如何,統計量隻能為找出異常作答模式提供輔助信息,研究者卻不能隻依賴該信息做出被試是否作答異常的最終判斷。

二、局部獨立性檢驗

局部獨立性檢驗與IRT中的檢驗原則是一樣的。局部獨立性檢驗需要從被試和項目兩個角度進行。

從被試作答的角度檢驗其局部獨立性,這其實與第一個假設,即作答過程真實性假設存在一些內容的交叉,但局部獨立性假設主要強調統計意義上的依賴性偏差,重點關注欺騙性作答,主要是確定被試個體的作答過程沒有得到任何外部因素的協助,完全是其自身特質水平的真實表現。

被試作答的局部獨立性檢驗一方麵可以通過當時對測試過程的監察,以發現被試是否存在借助外部因素為自己的作答提供便利的情況,這是最客觀可信的檢驗手段;另一方麵可以通過數據分析的方法檢查被試是否存在非正常作答情形。我們可以合乎邏輯地認為:在正常作答情形下,低水平被試隻能答對低難度項目,對更高難度項目的正確作答概率比較低;隻有高水平被試才能答對幾乎所有低難度項目,同時對高難度項目的答對概率更高。從另外一個角度來說,如果被試能夠答對高難度項目,那麽他就應該有更高的概率能夠答對更低難度的項目,同時,被試答對相同難度水平的項目的概率應該是相近的。如果實際作答情形不符合這種規律,那麽,我們就有理由相信某(些)被試可能存在非正常作答行為。基於以上這種邏輯判斷和規律,我們就可以通過統計分析的手段對非正常作答情形進行探查。在具體進行探查時,關鍵是首先要知道被試的真實水平。如果隻有被試水平的排序信息,也是可以進行探查的,然後根據不同水平的被試,對比他們之間的實際作答模式,以找到懷疑他們作答過程異常的證據。關於被試的真實水平信息,如果研究者能夠從外部獲取關於被試真實水平的評價,當然是更加客觀公正的,但大多數情形下,特別是全國性大規模測驗,獲取每個被試水平的外部獨立評價是非常不現實的,因此,必須從測試數據內部進行分析。

第一種方法是以測驗總分作為被試水平的標誌,然而,由於測驗總分包含了所有題目的得分,包括在非正常作答項目上的得分,因此,這種方法隻有在非正常作答項目占分比例較低的情形下才有效。可是,在分析之前卻又無法確切知道被試在哪些項目上存在非正常作答的可能,因此,這種方法雖然簡單,但卻顯得比較粗略,隻能進行初步的探查。

第二種方法是可以從被試的作答模式上進行分析,也就是根據被試對不同難度水平項目的作答情況進行評價。首先對測驗的所有項目進行難度排序,被試如果能答對難度較高的項目,他就很可能答對難度水平更低的項目,當然,偶爾答對一個較高難度項目的情形應該排除在外。同時,相近難度水平項目的答對概率應該是比較一致的。如果被試的作答反應模式與項目難度的排序存在顯著的差異,我們就應該懷疑其作答不正常。那麽,如何檢驗作答反應模式與項目難度排序之間的差異呢?這方麵的判斷還沒有統一的標準,研究者可以比較正確作答項目與錯誤作答項目之間的難度平均數,也可以根據排序不正常項目在測驗中所占的比例進行判斷。不過,前文作答過程真實性檢驗描述的ζ統計量在此同樣可以提供判斷依據。

第三種方法是檢查相同作答模式被試的分布比例。對於1、0記分題目,一個測驗包含30多個項目是非常正常的。從理論上來說,30個項目組成的測驗將有230種作答模式,也就是有超過10億種被試作答反應模式。當然,在正常情形下,有些作答模式是不可能出現的,如高難度項目答對,而容易項目答錯的作答模式,還有些作答模式本來就有更多的出現可能。其實,如果把被試作答模式與被試能力水平對應的話(很多測量學研究者就是這樣處理測驗作答數據的),那麽各種作答模式出現的概率就應該服從與能力水平一樣的分布。在這種情況下,如果按測驗總分排序的作答模式分布偏離正常分布太大,我們就可以有理由懷疑測驗中可能存在非正常作答情形,因為非正常作答模式經常隻出現在幾個孤立的分布點上。因此,在探查非正常作答模式時,經常需要首先對分布進行平滑化處理,然後比較某個點上的正常分布與實際分布之間的差異。當然,這種探查方法對大規模測驗中可能出現的集中舞弊現象可能會比較有效。

不過,用統計分析手段對非正常作答被試進行探查,在有些情形下很難有效。因為在實際測試中,被試一般是對在自己能力水平範圍內的題目自己獨立作答,而對較難的項目才借助外部力量。這樣的話,其作答結果仍然會呈現出比較合理的模式。因此,統計分析過程需要仔細、謹慎,綜合多方麵信息進行判斷。

從項目的角度檢驗其局部獨立性,主要是要確定各個項目之間是否存在內容相依或結果關聯。一方麵,我們可以通過專家分析的方法,判斷測驗中的各個項目之間是否存在相互依存關係。另外,項目之間的局部獨立性有時候還可能會受到測驗題目形式的影響。比如,關於相同題幹下的多個設問題型,被試對題幹的不同理解可能就會影響該題幹下所有問題的作答結果,語文和英語閱讀理解就是這類題型的典型例子,而相同題幹下的多步驟解答記分題型,除了會受到相同題幹的影響之外,後續步驟的解答還會受到前麵步驟解答正確與否的影響。另一方麵,我們也可以通過統計分析的方法,判斷測驗項目之間是否存在相依關係。現在把經常用於檢驗項目相依關係的統計量稱為Q3統計量,該統計量的定義過程如下:

首先,定義

其中,uik為第k個被試在第i個題目上的得分,Pi(θk)為被試正確反應概率。根據這個式子的定義,可以計算出每個被試在每個項目上的d值。然後,定義

r為兩個題目i和j之間的相關係數,其相關係數的計算是基於式(4-5)所定義的d值的,也就是說,在計算相關係數之前,首先需要把得分矩陣中的各個0和1形式的分數轉換為d值。當我們所選擇的項目反應模型與測驗數據擬合良好時,Q3統計量的相關係數r按照Fisher轉換為z值後,將服從正態分布,其平均數為0。對於三參數邏輯模型,其方差為1/(n-3),其中,n為參與相關係數計算的被試樣本容量。相關係數r按照Fisher轉換為z值的式子如式(4-7)所示:

ln為取自然對數符號。當然,讀者也可以通過查表的方式獲得轉換值,許多應用類統計書都會提供這類轉換表。

有研究者又指出,使用Q3統計量對項目相依性進行檢驗的實際應用,很少基於正態分布理論對其Fisher轉換值進行檢驗,而是直接給Q3統計量的絕對值劃定一個臨界值,根據經驗,該臨界值定為0.2。如果Q3統計量的絕對值大於該臨界值,則可以認為這兩個項目之間可能存在相依關係。

三、補償性檢驗

根據補償效應的判定規則,存在補償效應意味著作答結果是正確有效的,另外還必須使用不同的解題方案。補償效應具體體現在認知診斷評價理論中,就是在某些題目的作答上,被試可能使用了不同的知識屬性(答題策略),卻獲得了同樣正確的作答結果,於是我們認為,這些不同的答題策略包含的知識屬性之間存在相互補償的關係。在解決相同的問題時運用了不同的知識屬性,這可能是因為被試掌握了其中一種解題策略包含的知識屬性,但未掌握另外一種解題策略包含的知識屬性,也可能是因為該被試掌握了所有的知識屬性,隻是選擇了其中一種解題策略。

我們可以根據以上關於補償效應的概念來劃分其檢驗的方法。

第一種檢驗方法是專家判斷法。首先,邀請三四位領域專家,讓他們理解並熟悉測驗認知模型(參見後麵關於屬性定義的相關內容)及其示例題目的命製規則,同時解釋補償效應的概念。其次,專家基於認知模型初步判斷屬性之間是否存在補償效應。再次,專家對示例題目的解題策略進行演示,分析是否存在不同的解題策略。最後,結合認知模型和示例題目,判斷該領域的知識屬性之間是否存在補償效應。

第二種檢驗方法是基於被試作答的原始資料分析的方法。為了檢驗測驗認知屬性之間是否存在補償效應,可以將測驗認知模型定義時命製的典型事例題目組成試卷,挑選一批來自不同子群體且在該領域水平中等及以上的被試作答試卷。作答過程中要求被試將答題的策略和具體過程詳細地寫出來。研究者根據對被試的這些原始作答信息的分析,判斷每個典型項目是否有不同的解題策略,並據此分析屬性之間的補償效應。

第三種檢驗方法是基於統計分析的方法。統計分析方法一般基於測試樣本數據進行推斷。首先,選擇一個認知診斷模型,最好選擇非補償模型,因為補償模型經常是可以解釋非補償數據的,在此以非補償的DINA模型(關於該模型的具體介紹請參見後麵有關章節的內容)為例。根據測試數據,估計被試屬性掌握模式和項目參數。然後,將所有被試按屬性掌握模式進行分類,同時,將所有題目按測試屬性進行分類,即測驗Q矩陣。根據測試的屬性個數,每次對單個題目進行檢驗。首先檢驗測試了單個屬性的題目,然後檢驗測試了更多屬性的題目。在對各個題目進行檢驗時,將在該題目上正確作答的被試分成兩類:一類掌握了該題目要求的所有屬性;另一類未掌握該題目要求的所有屬性。

按照DINA模型的定義,被試未掌握要求的屬性卻答對題目的情形被認為是猜測的結果,但這種情形也有可能是因為題目屬性未定義完備,或存在其他的解題策略。當未掌握要求的所有屬性的被試答對比例足夠高時,我們應該懷疑題目屬性定義可能出現了偏差。出現這類屬性定義偏差的情形有三種:第一種是屬性定義錯誤,在作答中的表現是,掌握和未掌握該屬性的被試答對的整體比例均較低;第二種情形是定義的屬性數目超過了題目應該要求的屬性數目,在作答中的表現是,掌握了兩個屬性和掌握了其中一個必要屬性的被試答對比例相近,但隻掌握了另外一個非必要屬性的被試答對比例較低;第三種情形是有可能存在其他解題的替代方案,即運用其他屬性也可以答對,這就是補償效應,在作答中的表現是,掌握了題目定義屬性和未掌握題目定義屬性的被試答對比例均較高。

因此,在掌握了題目要求的屬性的被試答對比例足夠高的前提下,當未掌握題目要求的所有屬性的被試答對比例超過了正常猜測的答對比例時,就需要進一步檢驗該題目是否有替代的解決方案,即這類被試在作答中可能使用了不同的知識屬性。不過,通過統計分析的方法找出替代的具體屬性或屬性組合是一個比較複雜的過程,這時可以結合專家的分析和判斷,也可以結合被試作答原始信息資料的方法進行判斷。

以上幾種假設檢驗都是針對數據資料本身的特性進行分析檢驗的。對測驗資料假設進行逐項檢驗可能是一個非常煩瑣的過程,而且有些假設條件之間本來也是相互關聯的,如作答過程真實性可能會影響被試的局部獨立性。

假設檢驗都是為數據資料選擇合適的分析模型提供證據保障的,為此,我們可以假設所選擇的模型與數據資料之間是擬合的,然後檢驗基於所選擇模型的分析結果是否符合預期,來判斷模型選擇的合理性。下麵介紹另外兩種檢驗方法。

四、模型-資料擬合檢驗

不同的認知診斷模型建立了包含不同參數的項目反應函數,以描述不同水平被試答對每個項目的概率。借鑒項目反應理論中的模型-資料擬合檢驗方法,我們可以基於不同水平被試的觀察答對比例與項目反應函數的答對比例之間的一致性來構建擬合檢驗統計量。其實已經有許多研究者提出了各種基於這種分析邏輯的檢驗方法。我們以DINA模型為例,首先,依據該模型估計所有被試的屬性掌握模式,並將屬於相同屬性掌握模式的被試歸類到一組;其次,根據DINA模型的項目反應函數計算各組被試(其實,對於DINA模型來說,這時候隻有兩個組,即掌握了項目測量的所有屬性的被試組和未掌握項目測量的所有屬性的被試組)在各個項目上的答對概率(期望比例),同時,統計各組被試(注意與前麵分組一致)在各個項目上實際觀察答對比例;最後,計算期望答對人數與觀察答對人數之間的差異統計量,即擬合統計量,作為所選模型與實際觀察數據之間擬合程度的指標。擬合性程度指標可以使用皮爾遜卡方統計量(Pearson chi-squares),如式(4-8)所示:

其中,k表示被試按屬性掌握模式分組的組數(同樣,對於DINA模型來說,這時隻有兩個組,即掌握了項目測量的所有屬性的被試組和未掌握項目測量的所有屬性的被試組),foj和fej分別為各個組正確作答的觀察被試個數和期望被試個數。正確作答的觀察被試個數,通過直接點算相應組的實際正確作答人數得到;正確作答的期望被試個數,通過相應組總人數乘項目反應函數計算的正確作答概率得到。

另外,楊統計量是實際使用非常廣泛的另一個模型擬合性程度指標,也叫Q1統計量,其定義如式(4-9)所示:

式子中,k表示被試按屬性掌握模式分組的組數,Nj表示處於第j組的被試數量,Qij表示第j組被試在第i題上的實際觀察正確作答比例,Eij表示第j組被試在第i題上的期望正確作答比例,這裏就是通過模型的項目反應函數計算得到的正確反應概率,也可以用楊提出的式(4-10)進行計算:

Pi(αl)就是屬性掌握模式為αl的被試在第i題上的正確反應概率,楊統計量漸近地服從自由度為(k-c)的卡方(χ2)分布,c表示模型中的參數個數。楊同時定義整個測驗與所選項目反應模型的擬合程度為各個題目Q1的累加和。

另外,有一些在各學科領域常用的模型資料擬合統計量,如AIC統計量(Akaike information criterion)、BIC統計量(Bayesian information criterion)、DIC統計量(deviance information criterion)等,也可以用於指導我們選擇更合適的認知診斷模型。其實,AIC統計量、BIC統計量和DIC統計量的建構邏輯原則非常相近,但在應用中存在一些差異。我們依次介紹這幾個統計量及其使用。

AIC統計量是在給定一批數據資料的情形下,表示多個統計模型之間對該數據資料的擬合質量的測量指標。AIC統計量分析了每個模型相對於其他模型的擬合質量,因此可以協助為數據資料選擇更合適的模型。AIC統計量是基於信息理論建構的,表示了使用某個模型來解釋數據資料時相對的信息丟失量。當然,模型的參數越多,越能更好地解釋數據,越能利用和傳遞數據包含的信息,但模型本身就會顯得更加複雜而難以處理。因此,AIC統計量是在模型和數據的擬合優良性與模型的簡化程度之間進行權衡的指標。AIC統計量無法提供關於某個模型絕對意義上的擬合程度評價信息,即使所有模型實際上擬合數據的程度都很差,AIC統計量也無法給出一個臨界信息。因此,這類擬合統計量被歸類為相對擬合統計量。

假設有一批數據資料U,統計模型M用於解釋這批數據。W表示模型估計的參數個數。比如,DINA模型估計的參數數目為2J(題目參數個數,J為題目數)+2K-1(被試參數數目,K為測驗屬性個數),Lmax表示模型的極大似然函數值(關於極大似然函數的概念請參見參數估計一章中的相關內容),Lmax=P(U|θ,M),θ為使似然函數達到極大值的參數值。AIC統計量定義如下:

在一批備選模型中,AIC統計量越小的模型被認為是擬合數據資料越好的模型。根據式(4-11)可以知道,數據資料的擬合質量(通過似然函數評價擬合質量)越高,模型參數數目越小,AIC值越小。不鼓勵過度擬合(overfitting),因為增加參數數目幾乎總是會提升模型的擬合度。

在實際應用中,我們首先計算所有備選模型的AIC值,然後選擇AIC值最小的模型。然而,實際觀察數據資料總會存在誤差效應,因此,如果有模型的AIC值與最小AIC值非常接近,這時應該如何選擇呢?這時可以計算一個評價指標exp[(AICmin-AICi)/2],i表示一個與AIC值最小的模型競爭的模型。該評價指標表示了競爭模型相對於當前最小AIC值模型來說,有多大可能成為AIC值最小的模型。如果該評價指標值比較大,那麽在選擇模型時就需要更加謹慎。比較穩妥的辦法是增加觀察數據資料,使更佳擬合模型的選擇趨於一致,同時保證參數估計的精確性和結果解釋的穩定性。

BIC統計量同樣是在候選模型有限的情形下選擇一個最佳模型。該統計量同樣認為,模型參數越多,擬合數據資料的可能性越大,但會導致過度擬合的結果。為此,BIC統計量也對模型參數的數量設置了懲罰項,而且BIC統計量對此的懲罰力度更大。BIC統計量定義如下:

在多個候選模型中,BIC值最小的模型是最合適的模型。BIC值會隨著需要自由估計的參數數目的增加而增大,同時也會隨著模型的估計誤差方差的增大而增大。也就是說,因變量(結果變量)估計偏差和自變量(解釋變量)的數目會導致BIC值變大。因此,小的BIC值就意味著更少的待估參數和更佳的模型擬合度。不同模型之間的BIC值差異及其意義的判斷一般參照以下標準:0~2意味著模型效率差異不明顯;2~6意味著推薦選擇BIC值更小的模型;6~10意味著強烈建議選擇BIC值更小的模型;大於10意味著兩個模型具有顯著不同的解釋力和應用價值,BIC值小的模型應該被選擇。

BIC統計量比AIC統計量更嚴厲地懲罰參數冗餘,當然,兩者之間的差異會受到樣本容量及樣本容量與參數數目的相對大小的影響。另外,BIC統計量和AIC統計量一樣都是相對擬合統計量,均沒有絕對意義上的統一的臨界值。

關於DIC統計量,我們首先定義離差統計量:

其中,y代表了結果數據,θ是模型的未知參數,P(y|θ)是似然函數,C是一個常數。這個常數在對不同模型進行比較時會被抵消,因此我們在實際應用中不用知道它的具體取值。

DIC統計量更傾向於選擇數據擬合良好的模型,因此可能會產生過擬合的評估結果。同時,與AIC統計量和BIC統計量一樣,DIC統計量是一個相對擬合指標。DIC統計量也容易受到樣本容量大小的影響,同時,隻有當後驗分布漸近多元正態分布時,DIC統計量的檢驗結果才是可信的。

五、被試-模型擬合檢驗

在進行模型-資料擬合檢驗時,一般都是通過作答數據檢驗各個項目是否擬合模型,很少關注被試作答行為是否擬合當前模型。主要是因為被試是一個隨機化的樣本,而測驗是一個相對穩定的結構化變量。其實,在實際的評價項目中,當前所選模型可能對有些被試的作答結果無法很好地進行解釋,也就是說,當前模型參數也許並不能很好地描述被試真實的潛在特質水平。因此,從被試評價的角度來說,有必要對每個被試也進行模型-資料擬合檢驗,以對被試水平做出更加準確的判斷。

對於認知診斷評價,被試與模型之間的擬合檢驗顯得尤為重要。因為被試作答測驗時所應用的知識結構也許與模型所定義的那些知識結構並不是一致的。崔等人基於屬性層級方法(attribute hierarchy method,AHM)的思想,提出了一種檢驗被試擬合程度的統計量指標——層級一致性指標(hierarchy consistency index,HCI)。

在項目反應理論中,對於某個被試來說,當某個題目的答對概率較高卻作答錯誤,而當某個題目的答對概率較低卻作答正確時,我們認為這樣的作答模式是不正常的。

在認知診斷評價中,被試水平不再隻是通過一個單獨的能力水平分數來評價,而是通過其在多個測驗屬性上的發展狀態來評價。這些測驗屬性之間很有可能存在層級關係(雖然有的診斷模型在參數估計過程中並不強調屬性層級的作用,但在補救教學階段卻仍然必須定義屬性間的層級關係)。這時就必須要檢驗被試在作答反應中所運用的知識結構是否與基於該層級關係建立的Q矩陣一致。

Qr矩陣定義了每個項目測量的知識屬性,被試必須掌握這些屬性才能答對項目。於是,通過比較被試的觀察反應模式和Qr矩陣的屬性定義模式,就可以評估被試在作答項目時是否運用了與Qr矩陣定義的知識屬性或屬性組合不同的屬性或屬性結構。

如果被試掌握了項目測量的所有屬性,那麽他就應該可以答對該項目,於是,他也就可以答對所有包含答對項目子屬性(項目屬性是另一項目屬性的子集)的項目。基於該邏輯思想,被試i的HCI指標的構建模式如下:

其中,

Sj包括測量了項目j屬性子集的所有項目;

以一個被試的觀察作答反應模式為例,具體計算HCI指標的過程如下:

⑤計算HCI指標值,並做出擬合程度判斷。

HCI指標和前文介紹的個人作答模式擬合指數均可以對被試的異常作答模式進行檢驗,均依據觀察結果與期望結果之間的差異做出判斷。當然,這兩個統計量指標的具體構建模式存在著明顯的不同。

本章小結

模型-資料擬合檢驗檢查模型參數及函數形式是否能夠較好地解釋或預測數據資料。每個模型都是基於研究者對數據資料形成邏輯的認知而提出的,並用參數化的函數來表示這種邏輯關係。研究者的認知需要通過對實際數據的分析進行檢驗。每個模型均是一個解釋數據的有機整體,包括參數的設置、函數的形式及相應的假設條件,它們共同支撐模型對數據的解釋,因此,任何部分的扭曲都將導致模型整體對數據解釋的偏離。當然,模型的不同組成部分對整體模型的影響程度不同,有些條件還具有較好的穩健性。

我們雖然從不同的角度提出對模型進行檢驗,從每個角度又提出了各種不同的檢驗方法,但正如上麵所說,其實不同角度的檢驗之間存在著內在的關聯,均檢驗被試作答模式是否與模型的建構邏輯一致。因此,隻要有一個角度的檢驗結果發現了數據偏離模型,這就意味著整個模型無法很好地解釋該數據結果。

思考題

1.思考作答過程真實性假設的意義和主要的檢驗方法。

2.思考局部獨立性假設的意義和主要的檢驗方法。