第二節題目屬性定義和檢驗《認知診斷評價理論基礎》全文閱讀

題目屬性定義一般有兩種情形：一種是在已經定義好了測量目標認知模型的情形下，有目標地命製適合不同屬性及其結構的題目；第二種情形是對於已經命製好的題目，需要事後給題目定義屬性。

一、題目屬性的事先定義

在定義好了測量目標認知模型的情形下命製題目，這應該是一個比較直接的過程。根據前麵關於測量目標認知模型定義的方法，同時結合文獻調查、專家定義對各類數據分析之後，可以得到一個關於測量目標認知模型的細致定義，包括各認知成分的定義及其結構關係的定義，而且還匹配一套關於認知成分的比較標準的示例題目。命題專家在這些信息的基礎上命製題目，隻需要嚴格按照認知模型的定義和提供的示例題目，這樣獲得的題目和屬性之間應該可以保持比較高的一致性。

二、題目屬性的事後定義和驗證

為命製好的題目事後進行屬性定義，這是一個過程。在進行題目屬性定義之前，當然也需要首先定義測驗的認知模型，測驗認知模型的定義過程和上一種情形是相同的，隻不過在當前這種情形下，題目命製和認知模型的定義是兩個獨立的過程，是事後再將兩者結合在一起的。事後題目屬性定義的方法主要有兩種：一種是專家定義法；另一種是統計推斷法。

專家定義法是領域專家參照定義的認知模型，為題目指定屬性。如果認知模型定義地足夠細致，且有參照示例題目，那麽，專家的題目屬性定義過程應該會比較有效。如果條件允許，最好能夠給領域專家提供代表性被試的作答過程原始資料，以保證屬性定義結果更加穩定有效。在專家定義法的實施過程中，針對每套題目，至少應該安排3位領域專家進行獨立屬性標定，最後對定義的結果進行一致性程度評價。如果整體一致性程度較低，那麽專家對測驗認知模型的理解可能存在歧義。如果隻是在某些題目屬性的定義上一致性程度較低，那麽就需要根據具體問題分析產生的原因，最後專家達成一致意見。

應用統計推斷法來給題目定義屬性，是一種基於數據驅動的屬性定義方法。統計推斷法定義題目屬性主要應用在兩個方麵：一是對已定義屬性的題目進行驗證，基於數據信息判斷屬性定義是否合適；二是對未定義屬性的題目指定屬性。

認知診斷模型用於描述擁有某種屬性掌握模式的被試在定義了屬性模式的題目上的作答反應。如果模型無法描述這兩者之間的關係，那麽模型參數就會表現異常。比如，當題目屬性定義錯誤時，它就無法與被試屬性掌握模式之間產生正確的對應關係，導致函數模型被扭曲，模型參數出現異常。許多研究者基於這種邏輯提出了不同的題目屬性驗證方法，以及對這些方法的改進。這裏隻介紹其中的兩種方法供讀者參閱和研究。

德拉托爾（de la Torre，2008）提出了一種基於DINA模型的題目屬性驗證方法——基於EM算法的δ係列搜索法（the sequential EM-based δ-method）。假設某領域有K個屬性，用αl（l=1，2，…，2K）表示2K種屬性掌握模式，qj表示題目j的屬性向量。對於DINA模型來說，如果題目屬性定義正確，那麽，掌握了所有屬性的被試與未掌握所有屬性的被試之間的正確作答概率之差應該達到最大，即正確的題目屬性定義qj應該滿足如下定義：

德拉托爾又提出了兩種基於該指標的搜索正確題目屬性定義的方法（de la Torre，2008）：一種是窮盡搜索法；另一種是係列搜索法。

係列搜索法就是按屬性個數進行逐步搜索，從局部最優過渡到整體最優。具體過程如下，首先從包括一個屬性的屬性向量開始進行比較，在這個局部計算所有的δj值，將使δj值最大的屬性納入下一步的屬性組合。比如，在第一輪中，如果第一個屬性計算的δj值最大，那麽，下一輪將基於第一個屬性與其餘屬性組成兩個屬性的向量計算δj值，而其他兩兩屬性組合將不被考慮。如果第二輪的計算結果是第一個屬性與第三個屬性組合的δj值最大，那麽，下一輪將基於第一個屬性、第三個屬性與其餘屬性組成三個屬性的向量計算δj值。如果這一輪計算的所有δj值均小於上一輪最大的δj值，那麽，搜索過程終止，否則按上述方法繼續，直至發現最大δj值為止。係列搜索法比窮盡搜索法的計算量更小。

基於實際測試數據的屬性驗證過程還涉及題目參數和被試屬性掌握模式的估計問題，每次更換題目屬性向量時，可能就需要同時更新所有參數估計結果，這是一個非常龐大的計算。為此，提出了基於EM算法的解決方案（de la Torre，2008），其項目參數的估計為：

式子中的上標0和1分別代表了未掌握所有規定屬性的被試期望作答結果和掌握了所有規定屬性的被試期望作答結果（具體的參數估計過程請參見後麵章節中關於基於EM算法的邊際極大似然估計的相關內容及其示例）。

基於實際測試數據對題目屬性進行統計推斷的方法不可避免地會遇到統計算法中經常出現的問題。首先，參數估計會受到實際數據的影響而可能出現偏差，特別是在當前問題情境下，錯誤的屬性定義可能還會給其他項目參數的估計傳導誤差效應。另外，統計推斷的參照標準的確立會直接影響統計推斷結果，因為在實際測試數據情形下，統計量值總是在波動變化，可能會服從某種分布規律，但在進行統計推斷之前，需要確定其分布規律及判斷臨界值。比如，在當前問題情境下，δj值既包括真值，也就是真正由不同掌握模式被試導致的真實差異，也包括誤差值，也就是實際測試數據中可能包含的各種誤差來源的影響效應。因此，最大的δj值對應的屬性掌握模式不一定就是真實的題目屬性向量。作為標誌題目屬性定義合理性的統計量——δj值能夠為統計推斷提供支持信息，這些支持信息必須結合專家判斷才能做出合理的決策。

喻曉鋒等人（2015）受項目反應理論中模型-資料擬合檢驗方法的啟發，提出一種題目屬性定義和檢驗的方法。他們認為，在認知診斷評價中，測驗中的題目屬性定義與作答反應數據的擬合情況，應該也是可以按照類似項目反應理論中的模型-資料擬合檢驗的方法進行檢驗的，選擇擬合指標最好的題目屬性向量作為當前作答反應數據所對應的題目屬性定義。基於這種邏輯假設，提出了一種簡單易懂的定義和驗證題目屬性向量的方法：基於似然比統計量，同時對被試的屬性掌握模式、題目參數和題目的屬性向量進行聯合估計和驗證。

首先，假設已經有少部分題目屬性被正確定義，稱這部分題目的集合為“基礎題”，記為Qbase。屬性向量未定義的題目集合為“新題”，記為Qnew。采用“增量”的方式每次從“新題”集合中選擇一個題目（記為qnew）累積加入Qbase中，然後聯合估計Qbase的題目參數、qnew的屬性向量和題目參數，直到所有新增題的屬性向量和參數都被估計。接下來的估計過程包括兩大步驟。

第一步是估計所有新增題目的屬性向量和題目參數，包括以下幾個具體步驟：

①從Qnew中選擇一個題目，記為qnew，將qnew加入Qbase中，並且把qnew作為第1個題目；

②以Qbase、qnew和作答數據為基礎，使用MMLE/EM算法（de la Torre，2008）聯合估計題目參數和被試的屬性掌握模式；

④重複步驟①③，直到所有新增題目都被估計，則得到包含所有題目的屬性向量矩陣Q。

第二步是對所有題目的屬性向量和題目參數進行校正，包括以下幾個具體步驟：

⑦算法結束，得到Q矩陣的最終估計值。

第一步對每個題目進行估計時，每次是“增量”式地選擇一個新題進行估計，當包含的“基礎題”較多時，這種方法會有利於對每個新題的估計，因為此時數據包含較多有用的信息和較少的噪聲信息。但是當“基礎題”的數量較少時，即當數據包含的信息不足以對某些新題進行估計時，偏差可能會出現。當然，正如其他統計推斷方法一樣，基於統計量的決策總是會受到測試數據誤差的影響，因此，最終結果應該結合專家判斷進行綜合決策。

本章小結

領域目標的定義是評價活動的參照標準，如果參照標準出現偏差，評價活動將失去意義。領域目標的定義應該將自上而下的理論邏輯驅動與自下而上的任務材料列舉有機結合，這樣既能夠保證領域目標定義的完備性，又能夠保證測量過程的精確性。

題目屬性定義包括兩種形態：基於已定義的屬性命製題目和基於已命製的題目定義屬性。無論哪種形態下的題目屬性定義，都需要專家定義與數據分析相結合。專家定義提供了關於題目屬性定義的理論和個體先驗信息（基於大量過去經驗的總結），數據分析提供了關於題目屬性定義的樣本測試數據信息，兩種信息的有機結合能夠提供關於使題目屬性定義得更加完備的後驗判斷。

領域目標的定義是題目編製的基礎，題目編製是為了測量和評價具體被試或群體在領域目標上的發展狀態。測驗題目屬性定義是為了使編製的測驗與領域目標有機地結合在一起。

思考題

1.如何從任務內容角度和潛在特質結構角度定義領域模型？

2.領域認知模型建構的主要方法有哪些？

3.你了解的題目屬性定義和驗證的主要方法有哪些？它們有哪些優勢和不足？

第二節 題目屬性定義和檢驗

第二節題目屬性定義和檢驗