第二節項目與測驗質量評價《認知診斷評價理論基礎》全文閱讀

認知診斷測驗的質量評價包括對單個項目質量的評價和對測驗整體質量的評價。測驗作為評價被試素質水平的工具，無論是單個項目質量的評價還是測驗整體質量的評價，其目標均是能夠為評價被試提供穩定的、有效的信息。

一、項目質量評價

在經典測量理論和項目反應理論中，項目質量分析包括項目呈現形式的分析（如文字表述方式、提問方式、選項內容長短不一等方麵的檢查）、選項分析、難度和區分度分析等，在項目反應理論中，還可以針對測驗目標分析每個項目的信息量（測量誤差信息）等。

在認知診斷評價中，項目質量分析的內容角度與項目反應理論基本是一樣的，但認知診斷測驗項目的應用情境還是有一些關鍵的不同之處，因此在具體的項目質量分析過程中存在一些差異。

首先，在認知診斷評價中，測驗項目編製的主要目的是對被試進行診斷，而不是對被試進行排序或選拔。診斷測驗一般是低厲害測驗。因此，項目的功能主要是診斷各類被試學習不足的方麵。

其次，在認知診斷評價中，對被試的評價並不是在一個一般（general）維度上的水平測量，而是對多個子屬性的掌握狀態的評估。因此，不同項目可能測量了不同的子屬性，項目質量評價就需要考慮在不同子屬性上的測量信息。

再次，在認知診斷評價中，不同的診斷模型或方法構建差異非常大，其參數意義也存在很大的不同。因此，在用模型參數對項目質量進行評價時並不能一概而論。

最後，在認知診斷評價中，作為評價的目標——被試屬性發展狀態的表示方式也存在差異。潛分類模型將被試屬性發展狀態表示為在一係列屬性上離散的掌握模式，而連續潛特質模型則將被試屬性發展狀態表示為在一係列屬性上連續的掌握模式。被試水平的不同表示方式會影響基於被試測試數據的分析方式。

根據項目質量分析的一般架構，同時結合認知診斷評價的具體情境，對認知診斷測驗的項目質量分析可以從以下幾個方麵進行。

一是項目內容及其表述方式的檢查。項目內容表述不清，容易使作答者無法理解或理解出現偏差，從而導致出現不同的作答結果，無法準確認定被試的認知屬性。對項目內容表述方式的檢查一般是要求文字表述清楚且通順，不會引起誤解。文字的表述盡量使用短句，不要有太多的連接詞和修飾詞，盡量不要使用反問句式。文字表述的內容要使作答者和題目命製者在意義理解上達成一致。

具體的內容檢查過程中，先由有經驗的測驗編製專家對各個項目的表述方式進行完整的檢查；然後找到部分被試代表對各個項目表述的意義進行解釋，並嚐試作答，以此分析被試對各個項目意義的實際理解是否與命題專家一致。

二是選項分析。針對選擇題型一般需要進行選項分析。在經典測量理論和項目反應理論中，一般認為，選項中除了正確選項就是錯誤選項。在認知診斷評價中，項目的選項分析顯得尤為重要，它認為項目的各個選項均提供了關於被試屬性發展水平的信息，當然這對選擇題型題目命製者也提出了更高的要求。

在進行項目選項分析之前，需要從測驗開發者那裏獲得關於各個選項測試的屬性及其水平的信息。一般來說，一個項目測試的屬性最好不要隨著選項的變化而變化，但是可以隨著選項的變化而表示不同的屬性掌握水平，每個錯誤選項代表一種錯誤的解題規則。

在認知診斷測驗項目選項分析中，首先從內容上分析各個錯誤選項是否代表了該項目測試屬性的主要錯誤規則。選擇題的選項除正確選項外，一般代表了對某個概念或規則理解的偏差，這也正是認知診斷評價的主要關注目標。在某屬性上可能的主要錯誤規則需要領域專家進行判斷，因此，第一項選項分析工作需要領域專家完成。其實，這項工作可以在測試之前的認知模型定義或題目命製階段完成。

假設第一步工作已經做得很好，選項分析的第二步就是統計每種選項上的被試人數。但在認知診斷評價中，我們關注的重點並不是正確選項人數是否占優勢，或錯誤選項之間分布是否均勻等問題。我們關注的是代表不同錯誤規則的錯誤選項上的人數比例。如果某錯誤選項上的人數比例較高，這可能意味著教育者的教育過程出現了問題，當然也很可能是該選項表達的內容很難與正確選項區分開來。如果某錯誤選項基本上沒有作答者選擇，那麽可能因為其表述的傾向過於明顯，當然也有可能是作答者根本不會出現這類錯誤規則，該選項就應該被刪除。

三是項目參數質量分析。項目參數分析是項目質量分析中的重要內容之一。在經典測量理論中，項目參數主要是從測試群體的角度進行評價的，它要求項目區分度高，難度適中。在項目反應理論中，項目參數則可以從測試個體的角度進行評價，它仍然要求項目區分度高，但項目難度則可以針對不同的被試水平有不同的價值，被試水平與項目難度越接近，則可以獲得越大的信息量。總之，在評價被試時，項目參數的大小是有優良之分的，因為它能影響測量誤差的大小。

在認知診斷評價中，根據對數據資料的不同解釋邏輯，構建了許多包含不同參數的模型，這些模型參數的意義也不相同。但無論項目參數如何構建，各種模型的被試參數反映的總是關於屬性的掌握狀態。項目參數是以被試的實際作答表現來估計的，反映了被試某方麵的分布特征，與被試水平分布有著內在的關聯。在評價被試屬性掌握狀態時，不同模型的項目參數值大小同樣有優劣之分、合適與不合適之分。

被試屬性與測驗屬性是一致的，但不同項目測試的屬性及屬性個數可能並不相同，因此，項目提供的信息是針對其測試的屬性來說的。由於模型參數不一致，所以我們無法統一評價項目參數的大小，但我們可以給出項目參數評價的基本原則，那就是參數的大小應該以評價被試相應屬性提供的更大信息量為標準。以DINA模型為例，其項目參數包括失誤參數和猜測參數，兩種參數均是表示作答結果偏離被試真實水平表現的程度，也就是說，這兩個參數值越大，意味著該項目在評價被試真實水平時會有更大的誤差，信息量也就越小。不過，失誤參數和猜測參數分別反映了被試群體的不同分布特征，失誤參數反映了高水平被試的作答分布特征，而猜測參數則反映了低水平被試的作答分布特征。失誤參數值高意味著該項目不適合評價高水平被試，猜測參數值高則意味著該項目不適合評價低水平被試。如果兩個參數值均較高，則該項目應該被替換。

二、測驗質量評價

測驗質量評價是從整體上評價測驗在測量被試水平時的穩定性和有效性，也就是評價測驗的信度和效度水平。

（一）測驗信度評價

信度反映了測驗受到隨機誤差因素影響程度的大小。隨機誤差因素非常多，研究者已經針對一些重要的隨機誤差因素開發了測量其影響大小的方法和技術。比如，時間對測驗結果穩定性的影響，研究者一般通過同一測驗在兩次不同時間測量結果的一致性程度來表示；題目抽樣對測量結果一致性的影響程度則通過複本信度、分半信度或其他內部一致性信度指標來測量；等等。項目反應理論基於項目參數計算測驗對不同能力水平被試提供的信息量大小，以此反映測驗在估計被試能力水平時的測量誤差，項目參數反映了項目本身的編製質量。

在認知診斷評價中，測驗結果的穩定性或一致性同樣是非常重要的問題，在提供診斷性結果的評價中，這甚至是一個需要更加重視的問題。

診斷結果隨時間的穩定性同樣可以根據兩個不同時間測試結果的一致性程度進行評價。但是在認知診斷評價中，有兩個具體問題需要在測驗結果一致性檢驗時加以考慮。一是診斷的目標內容本身隨時間的推移而發生變化的規律。有些診斷的目標特質隨著時間的推移呈現出非常穩定的特征，如智力水平、性格特征、價值觀等，而有些特質則會隨著時間的推移而出現明顯的變化，如知識的掌握、技能的進步、情緒特征等。對於不同的診斷目標特質，在評價測驗的穩定性時，其測試的時間間隔和評價標準是不同的。二是測驗結果一致性的具體計算方法。在認知診斷評價中，被試水平通過一個向量來表示其在各個屬性上的掌握狀態，而在各個屬性上的掌握狀態可能是離散的，也可能是連續的表示形式。對於離散型數據，我們可以借鑒模式匹配率（pattern match ratio，PMR）和平均屬性匹配率（average attribute match ratio，AAMR）的計算方法來評價測試結果的一致性程度。PMR和AAMR指標的計算方法如下：

其中，N為樣本容量；Ni_match表示被試i在兩次測試中的屬性掌握模式是否完全一致，完全一致取值1，否則取值0；K為測驗屬性個數；Nik_match表示在兩次測試中被試i對屬性k的掌握狀態是否完全一致，完全一致取值1，否則取值0。

對於連續型數據，我們也可以模仿以上匹配率的構建模式來構建一致性評價指標。但由於誤差因素的影響，連續型數據很難達到模式完全匹配的結果，因此，我們隻構建基於每個被試在每個屬性上的整體一致性指標，該指標稱為平均屬性一致性（average attribute consistency，AAC）。該指標的計算形式如下：

題目抽樣給測驗結果一致性帶來的影響也可以通過複本信度、分半信度等指標來測量。但是在計算結果一致性時，同樣需要考慮被試水平表示方式的不同導致解決辦法在形式上的差異。由於同樣是評價兩組被試水平測試結果的一致性程度，因此，我們還可以借鑒重測信度的評價方法來對測驗內部一致性進行估計。

以上兩個測驗結果一致性指標是用比率的形式來表示的，用於評價測驗在結果一致性上的相對質量，但並沒有提供絕對的標準。

（二）測驗效度評價

測驗效度是測驗的本質特征，是評價測驗價值的基本指標。心理測量的目標是通過測驗等方法，以觀察分數的形式來獲得被試在某個潛在特質上的位置水平的信息，並將此信息應用於評價被試在不同領域的適應性水平。效度是衡量測驗達到開發者評價目標的程度的指標。評價測驗效度的角度有兩種：一是從測驗本身內容的角度評價測驗測量的目標領域完備性；二是從測驗外部尋找測驗有效性的證據。測驗本身的內容是外部有效性的理論基礎，外部有效性則是測驗拓廣價值的體現。

從測驗本身內容的角度評價測驗有效性，主要論證測驗是否很好地代表了測量目標領域的內容。雷通等人認為，認知診斷評價首先需要建立關於目標領域的認知模型，該認知模型包括了知識、技能、策略等及其層級關係。然後，領域專家嚴格按照該認知模型的定義命製測驗題目。艾姆布雷孫等人提出的認知設計係統（見上一節內容）則對認知模型的構建、測驗題目的設計和模型的驗證進行了詳細的規劃，是編製一份具有較好結構效度和內容效度的測驗的指導規則。

當然，在嚴格按照設計規則命製了測驗之後，我們仍然需要對該測驗的內容效度進行考察。驗證的具體過程就是，找到一批獨立於測驗項目命製專家的領域專家，由這批專家獨立地對所有測驗題目測試的屬性進行重新定義，建立測驗屬性Q矩陣，並以此屬性矩陣來評估測驗是否很好地代表了目標領域的內容及其權重。

有許多途徑可以從測驗外部尋找測驗有效性的證據。編製認知診斷測驗的目的是診斷被試在測驗本身代表的目標領域中發展的不足之處，因此，實驗幹預的方法是檢驗該類測驗有效性的最佳途徑。有研究者（Tatsuoka & Tatsuoka，1997）就用實驗幹預的方法驗證了診斷測驗的有效性。他們首先通過前測（pretest）對被試在某領域的認知狀態進行診斷，發現這些被試認知發展的不足之處，然後針對這些不足之處進行補救教學和輔導，在認為這些被試已經掌握了相應的內容之後，對被試進行後測（posttest），以檢驗針對相應內容的幹預效果。他們還在一段時間之後檢驗了被試對知識內容的保持狀況。還有研究者也是通過前測、幹預教學、後測加訪談的方法檢驗了英語閱讀技能診斷測驗的有效性。

本章小結

效度與信度是評價任何測驗編製質量必需的指標。相對於傳統的評價測驗，認知診斷評價測驗的編製是一個更加精細化的過程，它需要一個更加嚴密的測驗編製指導架構來支撐題目的編製過程。

艾姆布雷孫等人基於對認知心理學理論、方法在指導測驗編製時具有的獨特重要性的認識，提出了指導測驗編製的認知設計係統，該指導架構邏輯非常嚴密，對編製高質量的認知診斷測驗具有重要的指導意義。

初步測驗編製後的質量分析是保證測驗實現診斷目標的關鍵步驟。項目質量分析和測驗整體質量分析均是為了保障測驗的效率、信度和效度。

思考題

1.請深入思考和分析艾姆布雷孫等人提出的測驗編製原則和具體流程。

2.如何保證認知診斷測驗的信度和效度？

第二節 項目與測驗質量評價

第二節項目與測驗質量評價