在大規模評價項目中,最常用的測量工具就是測驗,基於對測驗及項目的深入分析,可以對被試個體和群體的水平進行評價。作為評價工具的測驗質量直接影響結果的準確性和有效性。經典測量理論和項目反應理論對被試的評價是基於一個累加總分或能力特質分數,這個指標能夠對被試水平進行排序,但很難進行更細致的評價。

一、認知診斷評價測驗設計目標

認知診斷評價理論提出的最根本目的就是實現對被試水平更細致的分析,診斷出影響被試作答表現的內部原因,發現被試在某特質領域裏的認知發展狀態和不足之處,從而協助被試和教育者針對不足進行輔導。為此,認知診斷評價理論需要首先定義測驗測量的領域知識、加工技能、加工策略等,雷通等人(Leighton,Gierl,& Hunka,2004)將這些認知屬性及其層級結構關係叫作認知模型,強調認知模型應該在測驗項目編製之前就定義好,以指導測驗項目的編製,這樣才能保證測驗內容結構的唯一性和穩定性。

艾姆布雷孫等人(Embretson & Gorin,2001)認為過去我們在編製測驗時幾乎忽略了認知心理學的指導價值。在傳統的測驗編製中,測驗結構的定義非常模糊,測驗項目編製者也是主要憑經驗進行工作,測驗項目編製完成後,由學科領域專家進行審核,最後通過試驗性數據分析來證明測驗的效度。大多數情況下,試驗數據分析結果並不會根本改變測驗的組成及其結構。其實,一開始的測驗設計和最後得到的測驗結構之間經常是不一致的,而且研究者會更相信最後的試驗分析結果。

艾姆布雷孫等人強調認知心理學理論、方法在指導測驗編製時具有的獨特的重要性。在典型的認知心理學研究中,主試在實驗中設置和操縱各種任務條件,以檢驗關於某個結構及其加工機製的假設。在實驗中,任務特征可以係統變化以產生不同的加工難度。關鍵是,在認知心理學研究中,理論是研究者預先精細假設的,設置和操縱任務是為了驗證該理論假設是否成立,理論和任務兩者之間的邏輯關係非常嚴密。這種研究範式和傳統的測驗編製模式存在明顯的不同。

艾姆布雷孫等人認為認知心理學至少可以從以下幾個方麵促進測驗效度的提高:①輔助定義測驗結構和編製題目任務,詳細定義影響任務難度的特征;②為診斷性評價提供理論基礎,詳細定義完成任務所需的知識、技能;③為自動評分提供準則,指導結構定義、測驗設計和任務設計的有機整合;④為題目自動生成算法提供結構定義和刺激特征描述。

二、認知設計係統

艾姆布雷孫等人提出了基於認知心理學理論的認知設計係統(cognitive design system,CDS),指導如何設計符合某個特定結構定義的題目。認知設計係統包括兩個框架:一是概念框架(conceptual framework),二是程序框架(procedural framework)。

概念框架區分了結構效度兩個相對獨立的方麵:結構表征和結構廣度,分別表示結構本身的內涵定義和結構概念的外延範圍。結構表征代表的是在任務解決中涉及的知識結構、加工過程和策略。認知心理學的研究範式主要是支撐結構表征的界定,任務的刺激特征定義及其難度的數學表達模式是主要的研究內容。結構廣度涉及的是本測驗分數與其他測量之間的關係,但不關心概念結構本身的內涵,這與克隆巴赫和米爾斯定義的概念網絡(nomological network)不同。當然,結構廣度的驗證過程必須基於結構表征的內容基礎之上。將結構表征從結構廣度中區分出來,可以讓認知心理學理論和方法真正指導測驗題目的生成和評價,因為它可以明確定義影響題目難度的精細化的刺激特征。

程序框架包括了一係列步驟,界定如何在認知心理學理論基礎上進行測驗設計。為了使編製的題目能夠測量預先定義的結構,就需要首先了解影響題目解決過程的係列具體刺激特征。程序框架共包括七個步驟,當然,這些步驟並不是一成不變的,為了使編製的題目符合要求,有些步驟就需要反複進行。這些步驟是:

①定義測量目標。測量目標需要從兩個方麵進行單獨界定,一是測量結構的表征,二是測量結構的廣度。

②針對具體任務領域,定義各類任務的設計特征。這些設計特征,或叫刺激特征,是組成各類具體題目的設計單元。通過變換認知加工、策略和知識結構,可以驗證題目特征對應的結構表征。識別這些認知特征需要對認知心理學理論有較深入的理解。

③定義一個統一的測驗認知模型,主要涉及三個方麵:一是必須定義好測量的知識結構、認知加工過程和加工策略,這就必須進行廣泛深入的文獻調查研究;二是必須從操作的角度定義反映這些結構表征的具體刺激特征,最好通過實際題目來進行示例表示;三是需要基於實際題目和實測數據,對各認知特征的測量學特性進行分析,以評估各認知特征對題目難度、區分度的相對影響大小。

④設計和命製題目。在這個階段,根據題目結構定義及各種組合替代規則,將各類刺激特征組合成實際的題目。題目結構定義的變化意味著不同的認知加工要求。將設計好的題目組成測驗進行測試。

⑤根據測試結果對認知模型進行評估。這個階段非常關鍵,因為需要驗證測驗的結構表征是否正確,以及題目的設計生成過程是否合理。對認知模型和測量學模型的合理性均需要進行驗證。在認知模型的驗證中,因變量是平均反應時和題目難度,自變量是題目的結構以及題目的刺激特征。根據各刺激特征的影響程度來評估其代表的認知特征的影響程度,驗證的過程可能需要結合嚴密的實驗操縱過程來進行,以保證結論更加可靠。測量學模型的評估是評價其與項目反應數據的擬合程度。

⑥生成題庫。如果認知模型及各類刺激特征定義是合適的,那麽,我們就可以通過組合不同難度的刺激特征,來生成不同認知複雜度的題目。

⑦結構廣度的效度驗證。生成的題目和測驗是否達到了結構廣度定義的要求,需要根據該測驗和題目與其他測量結果之間的關係進行驗證。

艾姆布雷孫等人提出的認知設計係統非常嚴密,對編製高質量的認知診斷測驗具有重要的指導意義。然而,該係統在實際測驗和項目編製中可能會遇到各種困難,該設計係統對每個步驟要求都非常嚴格,測驗和項目設計者很難完全按標準做到。然而,作為一個參照標準,特別是指導認知診斷測驗的編製時,測驗設計者應該高度重視其價值。

三、測驗題目與屬性的組合模式設計

在認知診斷評價中,測量結果的精確性會同時受到測驗長度(題目數量)、題目質量和題目與屬性的組合模式的影響。因此,在保證題目編製數量和質量的同時,還必須要從總體上考慮測驗中的題目與屬性的組合模式設計。