題庫建設主要包括題目編製、參數標定、題庫組織三個方麵。

一、題目編製

認知診斷測驗中題目的編製主要強調題目的診斷功能,也就是編製的題目應該能夠用於診斷被試的知識、技能、策略的掌握狀態(即屬性掌握狀態),以保證測驗有合理的結構效度。關於如何編製具有認知屬性診斷功能的題目的具體方案,艾姆布雷孫等人提出的基於認知心理學理論的認知設計係統具有很好的指導作用,相關內容已經在本書的前麵章節中進行了闡述。

另外,還需要考慮測試每種屬性的題目數量。被試的屬性掌握狀態從理論上說是有無限種類型的,如果用離散模式(即1-掌握或0-未掌握)來表示被試對屬性的掌握狀態,那麽屬性掌握模式是有限的。然而,因為被試對每種屬性的掌握程度可能不同,因此,為了能夠穩定鑒別不同被試的真實屬性掌握狀態,需要針對每種屬性編製足夠多的測試題目,以保證測試結果有較高的信度(信息量)。

測驗長度當然是影響測量結果精確性的關鍵因素,然而,計算機化自適應測驗的一個優勢是能夠用更少的題目對被試做出更精確的評價。而在認知診斷測驗中,題目質量和題目間的屬性組合模式均會顯著影響測量結果的精確性。

為了能夠用更少的題目更精確地對被試進行診斷,一方麵,要保證進入題庫的題目必須有較好的測量學參數,另一方麵,還必須要根據目標領域認知模型,合理分配題庫中的題目與各種屬性的組合模式。

計算機化自適應測驗從根本上來說屬於個體測驗,它為每個不同個體量身定製合適的測驗版本,當然,參加測試的被試會有很多,而且可能有各種不同的屬性掌握模式和掌握水平。那麽,在這種測試環境下,如何設計一個優良的題庫,在節約題目編寫工作量的同時,又能保證各類被試均能被高效又準確地診斷呢?彭亞風等人(2017)對該問題進行了係統研究,並得到一些值得借鑒的結果。研究結果認為,在題庫容量方麵,目標測試領域內屬性個數及其層級關係下的典型項目考核模式種類是決定題庫容量的重要指標。直線型、收斂型和發散型所需的題庫容量是對應的典型項目考核模式種類的4~5倍,而無結構時為3~4倍。在題庫包含的項目類型及其項目數量方麵,每種項目類型的項目數量與該項目類型所包含典型項目考核模式的種類有關,且因屬性層級關係的不同而不同:在直線型和收斂型情況下,每種項目類型包含的典型項目考核模式均為5個左右;在其餘3種屬性層級關係下,隨著項目類型中考察的屬性個數的增加,對應所包含的每種典型項目考核模式的項目個數依次減少:考察1~3個屬性的項目類型中每種典型項目考核模式的項目個數分別約為5、4、3個,考察4個至K-1個屬性的項目類型中每種典型項目考核模式的項目個數均為2個左右,以及1個左右考察K個屬性的典型項目考核模式。

二、參數標定

認知診斷測驗中題目參數的標定同樣包括測量學參數和內容參數兩大類。測量學參數會因為使用了不同的模型而有不同的參數類別,如DINA模型就包括基於題目水平的猜測參數g和失誤參數s,而NIDA模型的參數就是基於屬性水平的,而RRUM模型則更加複雜一些。參數標定主要涉及參數估計技術,一般還會涉及參數的等值。具體實現方法請參看本書的相關內容。當然,由於認知診斷模型眾多,許多模型的參數估計和等值技術需要具體問題具體解決。

內容參數主要是題目測試的具體屬性的標定。

三、題庫組織

在編製了足夠多的符合認知診斷目的的題目,且標定了題目的所有相關參數之後,還需要考慮如何有條理地組織這些題目,以便測試的過程更加高效,對於大型題庫尤其如此。計算機化自適應測驗的整個實施過程都是在線的、即時反應的,而且同時參加測試的被試數量可能較多,因此,題目的挑選過程必須是高效的。對個體來說,在測試的不同階段需要挑選不同類型的題目,在IRT-CAT中,主要考慮在初始階段和精確估計階段使用不同難度和區分度的題目,因此題庫的組織經常根據題目測量學參數進行分類。而在CD-CAT中,除了考慮題目的測量學參數之外,題目的屬性組合模式是需要考慮的同等重要的問題。對於整個測試群體來說,還需要隨著測試的進行考慮題目的曝光控製問題,跟蹤題目使用情況並做出必要的處理,如對過度曝光的題目暫時休眠等。題庫中可能還需要對題目在線更新過程進行跟蹤。