在已有的認知診斷評價研究文獻中,極少涉及測驗等值問題的研究內容。等值在此難道是個不必要和不重要的問題嗎?隻要是需要對不同測試情形下的被試得分或測驗進行比較,那麽,等值就是一個必需的過程。在大規模評價項目中,對不同測試情形下的結果進行比較是非常重要而又非常常見的,因此,等值的問題應該得到關注。
在認知診斷評價理論框架下,被試典型的得分模式表現為離散的屬性掌握模式,這與經典測量理論和項目反應理論框架下的被試得分模式不同。另外,項目參數包括屬性模式和題目及屬性參數,這些參數的類型與項目反應理論的參數也存在差異,參數之間的等值轉換模式還沒有得到研究。
基於認知診斷評價理論及其模型的等值研究非常少,還沒有成熟的等值方法得到廣泛認可。但還是需要讓研究者們理解關於等值的概念及其基本邏輯過程。因此,本書介紹了相關的內容,希望能夠引起大家的關注,並在此基礎上對認知診斷評價理論架構下的等值問題進行深入的研究。
本章內容首先需要解釋清楚幾個在中英文文獻中經常出現的相關概念。雖然有些作者可能會使用不同的術語,但進行一些界定是必要的,至少讓讀者可以明白出現這麽多不同的用語,是因為在實際研究中存在許多不同的具體測量情形。
量表化(scaling)是測量學中一個最基礎的概念。測量的目的就是要給被試某方麵的心理特質指定一個值,而對這個值的大小的意義解釋就需要依賴於某個度量單位係統。量表化指的就是建立統一的具有可比性(comparability)和參照性(reference)的度量(scale)係統的過程。“scale”這個單詞有尺子的意思,如用於量身高的工具叫“scale”,用於稱體重的工具也叫“scale”,而我們心理學中廣泛使用的用於測量心理特質的量表也叫作“scale”,心理量表是用於測量心理量的工具,將被試在心理量表上的得分對照常模參照表(即統一長度)就可以判斷他在總體中的位置,以及這個得分意味著什麽,而能夠對被試得分進行這種解釋。量表與一般的非標準化調查問卷是不同的,未經過標準化的調查問卷就隻能評價當前參與測試的樣本群體的相對位置。量表化總是針對某種特質或某個相關特質領域進行的。量表化的途徑非常多,如讀者非常熟悉的經典測量理論中介紹的各種測量常模的建立。為了建立統一度量係統的量表化過程可能會使用很多測量數據轉換方法,如鏈接、等值、校準、一致化等。
鏈接(linking)這個術語在使用時,經常會代表兩種意義:一種是包含建立兩個測驗之間各種關係的過程,如等值、校準、預測;另一種是指代相對比較狹窄的範圍,一般是指建立兩個測量目標相同的測驗之間的比較係統,而且,雖然這兩個測驗有相同的目標或者結構(construct),但是,測驗之間的難度分布、信度指標可能都不一樣,有人又稱這種情形為校準過程。不過,在大多數學者的認識中,鏈接一般指的是第一種意義,本書關於鏈接一詞的使用一般也是指第一種意義,而第二種意義使用下麵將要介紹的“校準”一詞來指代。
等值(equating)這個術語一般是指建立兩組或多組平行測驗之間的比較係統的過程。所謂平行測驗是指若幹不同測驗,這些測驗的編製過程、測試過程和解釋過程幾乎按照相同的嚴格界定進行,測驗的範圍相同、測驗的具體章節內容相同、測驗題型和計分規則相同、測試條件和過程相同、測驗難度等計量學指標分布相同。
校準(calibration)這個術語是指建立兩個結構相同,但難度分布或信度指標可能不一致的測驗分數之間的統一分數量表。比如,為了追蹤了解小學生在數學課程上的進步狀況,需要建立不同年級間數學分數的比較係統,以便了解當某個學生從三年級升入四年級之後,其數學水平是否得到提高,這種比較關係的建立過程就是垂直量表化(vertical scaling)。在這種情形下,不同年級的數學測驗雖然目標領域是一樣的,但測驗難度分布卻是不一樣的。另外一種實際情形就是,由於某智力測驗完整版的測試時間太長,容易導致被試作答疲勞,因此同時編製了一個簡縮版,簡縮版與完整版所測量的結構是一樣的,題型也是一樣的,難度分布等統計學指標也保持一致,隻是題目量減少了。隨著題目量的減少,測驗的信度指標也就發生了變化,測驗開發者當然希望建立完整版測驗與簡縮版測驗分數之間的比較關係,這樣才能讓使用者無論作答了哪個測驗,均能得到相似的結果解釋,這個關係的建立過程也叫作校準。
一致化(concordance)這個術語一般是指建立兩個測量目標相近(similar)的測驗之間的比較關係。所謂測量目標相近,就是測驗目標內容之間有較高的相關,但卻並不完全一樣(identical)。比如,建立韋氏智力量表分數與瑞文測驗分數之間的比較關係的過程,就可以稱為一致化過程。
調諧(moderation)一詞一般是指兩個測量目標或結構不同的測驗上的分數建立比較關係的過程。其中一種典型的設計方法是,兩個測驗通過分別建立與第三個測驗(調諧測驗)之間的關係,來達到相互比較的目的。典型的過程是,一組被試作答第一個測驗與調諧測驗,另外一組被試作答第二個測驗與調諧測驗,這種設計可以對兩組被試在不同測驗上的得分進行比較。另外一種更簡單的設計,就是兩個測驗施測於同一批被試或兩個隨機等組的被試,從而建立兩組分數之間的等值關係,這個其實就是觀察分數等值方法。
預測(projection)一詞一般指的是在兩個測試不同目標或結構的測驗之間建立分數的比較關係的過程。在建立比較關係時,預測一般是用一個測驗上的得分去預測另一個測驗上的得分,具體的方法通常是用回歸分析(regression analysis)建立同一組被試在兩個測驗上的得分之間的關係。
調諧和預測兩種方案所處理的測驗一般都是測量不同的目標或結構。比如,一般能力傾向測驗經常是以分測驗(subtest)的形式成組編製的(test battery),每個分測驗所測量的結構之間有很大的差異,但是通過這種測驗,可以了解被試在不同領域之間的優勢和劣勢。當然,在編製這類測驗時,需要考慮分別建立總測驗和各個分測驗的比較係統,以便比較被試在不同分測驗上所處的位置。另外,通過調諧這種方案所建立的分數比較關係是對稱的,但通過預測這種方案所建立的比較關係卻不是一一對稱的。
為什麽文獻上會出現這麽多相關術語,就是因為對測驗進行量表化時可能會涉及各種不同的情形,以及量表化的目的可能不同。科龍和布雷南指出,在對測驗進行量表化時,至少需要對以下四個方麵的情形特征加以考慮。
①推斷(inferences):在根據被試兩個測驗上的分數所蘊含的意義進行推斷性解釋時的相似性程度。如果在做出推斷性解釋時的相似性程度越高,那麽,這兩個測驗所測內容結構就應該非常一致,適應的參照總體也越相似,測試條件也應該一致。那麽,相應的量表化方法也應該越嚴格。
②結構(constructs):兩個測驗所測結構和內容的相似性程度。相似性程度的高低會影響我們應該選擇什麽樣的量表化方法。
③總體(populations):兩個測驗測試的總體及解釋所參照的總體的相似性程度。
④測量條件(measurement conditions):兩個測驗測量條件的相似性程度,如測驗長度、測驗模式、施測條件等。
根據這些情形條件的不同,在進行量表化時就可能需要使用不同的方案和方法。比如,對於“等值”所處理的情形,應該是兩個測驗經等值後的分數可以進行相同的推斷解釋,兩個測驗測量了相同的特質結構,測驗結果解釋的參照總體相同,在相同的測量條件下進行施測。對於“一致化”所處理的情形,就要求兩個測驗測量的特質結構相似,測量條件相似,相同的測驗分數可以進行近似的推斷和解釋,測驗結果解釋的參照總體相似。而對於我國分省高考的情形,測試的結構可能存在很大差異,施測的條件存在差異,測驗分數的參照總體存在差異,兩省高考之間相同的測驗分數不能進行相似的推斷。當然,我們還是希望能夠建立不同省份之間高考分數的比較關係,隻是需要應用不同的量表化方案。
雖然有這麽多的術語,它們分別代表了不同的應用情境,它們之間有著不同的具體目標,但最後的目的是一樣的,那就是建立不同測驗分數或不同被試群體之間比較係統的關係,即進行統一量表化。而且有些量表化方案在具體實施時,可能會使用相同的數據采集設計方式,甚至使用相同的數據統計分析方法。比如,垂直量表化和等值在數據采集設計和建立比較關係的統計分析方法上就有許多相同或相似之處。
下麵的內容主要是關於等值的設計模式及等值轉換方法的介紹。在國內,關於等值概念的應用似乎比較寬泛,基本與這裏講到的鏈接(linking)一詞的指代範圍一致。本章以下內容將會遵照國內的傳統叫法,隻是讀者自己需要明白各種情境下的等值需要注意的問題,並逐步建立自己關於量表化概念、方法的正確認識和交流習慣。等值一般包括被試分數等值、被試能力水平參數等值和項目參數等值。本章最後還會講到現在及將來在教育及心理評價中具有非常重要應用價值前景的垂直量表化(vertical scaling)或叫垂直鏈接(vertical linking)的模式和方法問題。
一、等值
等值是將測量同一心理特質的不同測驗分數或項目參數,通過一定的設計和數學模型,轉換到統一的單位係統中去的過程。
等值是進行大規模評價中經常用到的測量技術。在大規模評價活動中,經常會用到多個測驗測量不同的被試群體,但是,又希望最終的測試結果是可以進行相互比較的。在我國,高考應該是較大規模的全國統一考試,現在是各個省份進行自主命題考試,雖然考試大綱是統一的,但不同省份命製的具體題目千差萬別,如果不進行等值設計,各個高校在招生時就隻能按照在各省分配名額的方式進行,因為各省考試分數之間不可比較。現在,我國也開始重視教育質量進步的評價問題,除定性分析之外,用測試分數進行評價應該是一個重要手段,教育質量進步評價涉及縱向評價問題,而根據不同年份的不同測驗結果如何能夠評價學生成績的進步情況呢?這也需要進行等值設計,以保證測驗分數的可比性。
另外,考試安全是考試組織者最為關心的問題之一,為了保證考試的安全,組織者幾乎想盡了各種辦法。其實,如果能夠建立大型題庫,並實行計算機化自適應考試,測試組織者幾乎不用花多少心思就可以解決考試的安全問題。有些考試單位已經開始研究嚐試建立題庫。不過,題庫的建設如果離開了項目參數等值過程,這個題庫幾乎就沒有多大價值,至少沒有充分發揮它應有的價值。
(一)進行等值的條件
在兩個測驗之間進行等值必須具備一定的條件。根據洛德的觀點,等值一般應當具備以下條件。
1.測驗內容同質
洛德認為,測試不同特質(traits)的測驗之間不能進行等值。被等值的兩個測驗必須是測量相同的心理特質或特質領域。對測試完全不同的心理特質的測驗進行等值是沒有意義的。就像將數學成績與語文成績進行比較,這是沒有必要的。
2.測驗信度相等
洛德認為,不同信度測驗上的分數不能進行等值。如果一個不可靠的測驗上的分數可以等值到一個可靠的測驗上,那麽就不用專心去開發可靠的測驗了。所以,被等值的兩個測驗必須有相等的信度水平。測驗的信度不同,意味著測驗結果的可靠性程度不同,不同可靠性程度的測驗進行等值的結果也是不可靠的,兩個進行比較的分數也就不平等。比如,一個信度高的測驗和一個信度低的測驗,在其中一個測驗上的90分可能對應著另一個測驗上的88分,也有可能對應另一個測驗上的92分。
3.測驗難度水平相同
洛德認為,不同難度水平測驗上的分數不能進行等值,因為不同難度水平的測驗,在測量被試能力水平時的信度是不一樣的。
4.測驗嚴格平行
洛德認為,隻有嚴格平行測驗上的分數才能進行等值。
5.測驗可靠
洛德認為,隻有完全可靠(reliable)的測驗上的分數才能進行等值。
根據洛德提出的以上這些等值條件,下麵又有幾條延伸的解釋性條件。
6.等值過程對稱
從x測驗到y測驗的等值關係,與從y測驗到x測驗的等值關係,應是互逆的,兩個測驗上的分數或項目參數的轉換結果應該保證是一對一的關係。要做到這一點,就必須保證所有等值測驗分數的嚴格單調性,即更高能力水平的被試無論在哪個測驗上的得分總是高於更低能力水平被試的分數,而更低能力水平被試的得分總是低於更高能力水平被試的得分。這就要求等值測驗必須做到洛德提到的前五點要求。
7.等值結果公平
考生參加被等值的任何一個測驗,得到的分數在等值以後都是一樣的。這也要求等值測驗必須做到洛德提到的前五點要求,特別是第四點關於測驗嚴格平行的要求。
8.樣本不變
兩個測驗之間的等值轉換關係不依賴於某個具體的測試樣本。無論選擇的樣本能力水平分布如何,應該可以得到相同的等值結果。這也要求等值測驗必須做到洛德提到的前五點要求,特別是第三點關於測驗難度水平相同的條件。
9.等值過程可遞推
如果測驗x與測驗y之間有等值轉換關係f(x)=y,測驗y與測驗z之間有等值轉換關係g(y)=z,那麽測驗x與測驗z之間一定有轉換關係存在,h(x)=g[f(x)]=z。這種關係還可以推至更多的測驗形式。這就要求等值測驗必須做到洛德提到的前五點要求。
許多學者認為,如果測驗之間符合以上關係,其實根本就不用進行等值轉換,因為同特質、同難度水平、同信度、嚴格平行、完全可靠的測驗分數是可以直接進行比較的。然而,在現實測試條件下,以上條件不可能完全達到,總是需要進行一些校正,於是,這些條件成為我們應該追求的目標。當然現實條件不能偏離標準太遠,否則等值結果就沒有任何意義。也正是基於對以上條件的認識和現實的測試條件,許多學者建議,這種測驗分數轉換過程不應叫等值(equating),而稱為鏈接(linking)更加妥當。
(二)等值設計
等值設計是為收集適合進行等值轉換的測試數據的工作,主要涉及一般測試中的三個方麵的內容:一是測驗的設計;二是被試樣本的設計;三是測驗與被試樣本之間的組合模式。
要進行不同測驗結果之間的轉換,使兩個測驗結果可以相互直接溝通,就必須首先找到轉換的共同邏輯。這就和我們日常中的人際關係一樣,如果你想要結識某位陌生人並與他建立聯係,經常是通過中間介紹人進行聯係,或者是通過某個共同關心的話題進行交流。等值設計的目的就是設計不同測驗之間進行溝通的中間媒介。
等值中的基本元素就是測驗項目和被試樣本,所以,等值的中間媒介也就集中於對這兩個元素的設計中。現在經常使用的等值設計模式有以下幾種,我們逐一進行介紹。
圖10-1 單組設計模式
1.單組設計
單組設計是從被試樣本的角度找到不同測驗結果之間進行等值轉換的溝通模式。這種設計模式就是讓同一批被試先後參加兩個需要進行等值轉換的不同測驗,兩個不同測驗結果之間就通過相同的被試樣本建立了聯係,具體設計模式如圖10-1所示。
從圖10-1可以看出,純粹從形式上看,這種設計模式其實是讓一組被試樣本參加了一個超長的測驗,隻是這個測驗被分為兩個階段進行。這種設計得到的等值數據最直觀、最簡單。
單組設計通過讓同一組被試參加兩個不同測驗的方式,消除了測驗之間被試樣本的能力差異。然而,這種等值設計模式可能會引起兩種測試的順序效應:練習效應和疲勞效應。
因為進行等值的兩個測驗必須是測量相同的特質領域,所以,第一個測驗可能會對第二個測驗起到練習的作用,從而提高被試在第二個測驗上整體的作答表現,這種整體成績的提高又會反映在等值轉換關係中,導致第二個測驗的成績存在測試的順序優勢。另外,讓同一組被試參加兩個測驗,又有可能引起疲勞效應,特別是測驗僅僅是用於研究目的時,被試作答的消極情緒會更加明顯,這就可能降低被試在第二個測驗上整體的作答表現。同樣,這種整體成績的降低也會反映在等值轉換關係中,導致第二個測驗的成績存在測試的順序劣勢。順序優勢和順序劣勢能否相互抵消呢?它們是否對每個被試的影響程度都是一樣的呢?如果無法平衡順序效應,就應該從設計模式上進行必要的改良。
為了消除順序效應,學者們提出了經改良的單組設計模式——平衡組設計,這種設計模式將同一個被試群體再隨機地分成兩個子被試組,其中一個子被試組先施測測驗1再施測測驗2,另一個子被試組則先施測測驗2再施測測驗1,也就是說,在同一測試時間內,一半被試測試測驗1,另一半被試測試測驗2。經過這樣的改良之後,被試的順序效應可以得到比較好的控製。
2.等組設計
等組設計也是從被試樣本的角度找到不同測驗結果之間進行等值轉換的溝通模式,這種設計模式是讓兩個能力分布相同的被試樣本組分別參加兩個需要進行等值轉換的不同測驗。由於兩個被試組的能力分布相同,因此他們在兩個測驗上的分數就可以通過這一共同特性建立比較關係。
能力分布相同意味著能力分布的平均數、標準差等各階動差指標均相同,因此,這兩個組的被試應該是來自同一個總體的兩個樣本。在實踐中,為了得到真正的“等組”被試樣本,常用的做法有兩種:一種是匹配被試組;另一種是隨機等組。匹配被試組的做法是,在挑選兩個被試樣本時,必須成對地進行挑選,每一對被試的特質水平是相同的,最終得到的被試樣本不但對總體具有代表性,而且兩個被試組被試的水平需要一一對應。隨機等組的做法是從同一個被試總體中以隨機抽取的方式得到兩個被試樣本組,由於是完全隨機抽取的,因此隻要抽取的樣本容量足夠大,具有足夠的代表性,我們就有理由相信這兩個樣本組被試的特質分布狀態是一致的,即這是兩個等組被試樣本,這種設計模式也稱為隨機等組設計。從被試樣本抽取的要求和過程可以看到,匹配被試組設計要求嚴格、過程複雜,但等值結果會更加可靠;而隨機等組設計要求相對寬鬆、過程更加簡單,但一定要保證更大的樣本容量及其代表性,才能保證等值結果的穩定性。
與單組設計模式相比,等組設計的優點在於每個被試隻參加兩個等值測驗中的一個測驗,因此,可以消除各種形式的順序效應。其缺點在於,兩個被試樣本組必須有相同的“能力分布”這個前提條件,這在實踐中比較難以滿足。
等組設計的具體模式如圖10-2所示。
圖10-2 等組設計模式
注:“×”表示該被試未作答該測驗,在匹配被試組設計中n1=n2,隨機等組設計對n1、n2則沒有相等的嚴格要求,但應該非常接近。
單組設計和等組設計的等值轉換關係比較容易得到。
3.共同被試組設計
共同被試組設計,仍然是從被試樣本的角度找到不同測驗結果之間進行等值轉換的溝通模式。這種設計模式就是在參加兩個測驗測試的兩組被試中,有一小部分被試同時參加了兩個測驗的測試,這一小部分被試就被稱為共同被試組(common group)。
共同被試組設計與單組設計有許多共同的地方,隻是為了節約人力、時間和管理成本,共同被試組設計希望通過抽取一個典型被試團體作為等值轉換的中介。由於項目參數仍然是由全體被試的作答數據共同估計的,因此,該典型團體的被試容量和分布形態就不用像單組設計一樣嚴格要求,但共同被試組應該做到每個被試的典型性,也就是被試總體中的各個特質水平分布區間應該都有代表。
共同被試組設計的具體模式如圖10-3所示。
圖10-3 共同被試組設計模式
注:“×”表示該被試未作答該測驗,在共同被試組設計中,n1、n2一般會大於n3,共同被試組隻是為了建立兩個獨立組之間的鏈接關係而抽取的一個典型的代表性樣本。
4.錨測驗設計
錨測驗(anchor test)設計,也叫作共同題(common test)設計,是從測驗項目的角度找到不同測驗結果之間進行等值轉換的溝通模式,這種設計模式是將兩個不同的測驗分別施測於不同的被試樣本組,但這兩個測驗中分別包含一組相同的題目(共同題)用來作為進行等值轉換的中介,這一組共同題目叫作錨測驗,兩個測驗中的非共同題目叫作獨立測驗(unique test)。在實際的等值設計中,錨測驗與獨立測驗有兩種常用的組合模式:內錨設計模式與外錨設計模式。當錨測驗中的題目與獨立測驗中的題目同時施測,並一起參與被試記分時,我們稱之為內錨設計模式;當錨測驗中的題目不與獨立測驗同時施測,也不一起參與被試記分時,我們稱之為外錨設計模式。當然,不管錨測驗是否參與記分,這些題目都將與獨立測驗中的題目一起參與參數估計過程。
作為兩個獨立測驗進行等值轉換的中介,錨測驗必須遵循以下原則:①錨測驗題目的內容能代表整個測驗,錨測驗就是整個測驗的濃縮版;②錨測驗題目的難度指標全距應該足夠寬,區分度指標應該至少在中等水平以上;③錨測驗題目應該盡量涵蓋測驗中的所有題型;④為了達到以上要求,同時保證結果的穩定性,錨測驗的題目量一般應該達到整個測驗長度的1/4至1/3。
錨測驗設計對被試樣本的要求沒有像單組和等組設計般嚴格,而且錨測驗相對於被試樣本來說,無論是題目的獲取過程,還是測試的過程,都是比較容易控製的,因此錨測驗設計的應用更加廣泛。
錨測驗設計的具體模式如圖10-4所示。
圖10-4 錨測驗設計模式
以上各種等值設計模式各有優勢和缺點,從被試樣本的角度設計,容易引起諸如練習效應、疲勞效應、消極的應考情緒等問題,從測試項目的角度設計,容易產生題目內容和參數的代表性、題目內容的安全性等問題。因此,研究者在實際進行等值設計時,需要深入分析各種測試條件,了解被試樣本的獲取及作答動機情況,了解測試內容的分布、題目量及測試過程的安全性。然後,綜合設計一種符合實際的等值數據收集模式。
(三)等值轉換方法
從實際問題解決的過程來看,等值工作首先要在深入分析各種測試條件的基礎上,綜合設計一種最符合實際情形的等值數據采集方案。然後,研究考慮一種把兩個測驗上的作答數據進行轉換的技術途徑和具體方法。等值設計就是設計等值數據的采集方案,接下來,我們要介紹各種常用的等值數據轉換方法。
不論是哪種等值設計模式,等值總是在至少兩個測驗情境之間進行的。在進行等值轉換之前,甚至應該在等值設計之前,還有一項非常重要的工作,就是首先需要確定轉換後的分數或參數量表(scale)的單位。這就像我們中國人在聽到汽車的速度為每小時50英裏(1英裏約等於1.61千米)時,可能很多人一下子不知道這個速度究竟有多快,這時就會習慣性地把它轉換為公裏來進行評價,因為我們平時關於汽車速度習慣使用的參照單位就是公裏(1公裏等於1千米)。在這裏的等值轉換也一樣,我們需要確定一個合適的參照單位,然後,所有分數或參數都轉換到這個參照單位上去進行統一的評價。在等值實踐中,我們經常會選擇其中一個測驗的測試數據作為參照單位係統,這個測驗就被稱為量表測驗(scale test),其他測驗的分數和參數都轉換到這個測驗的單位上來,需要進行單位轉換的測驗稱為原始測驗(raw test)。
在選擇量表測驗時必須遵循一些原則:①量表測驗應該是足夠穩定的,也就是有比較高的信度;②量表測驗的內容對測量目標應該具有充分的代表性;③量表測驗中項目難度分布應該合理,一般應該保持與參與測試的被試樣本一樣的分布形態,區分度指標應該都是在中等以上;④測試樣本足夠大,以保證測試數據能夠獲得穩定的被試和項目參數,測試數據能夠反映被試樣本的真實行為;⑤在有多個測驗進行等值時,一般選擇難度分布偏中等的測驗,而在縱向等值中,則一般選擇中間的測驗作為量表測驗,讓兩邊的測驗向中間等值,這樣可以減少等值誤差的累積。
1.基於經典測量理論的等值數據轉換方法
(1)隨機等組-線性等值法
隨機等組-線性等值法的原理是:由於兩個被試組是來自同一個總體的隨機樣本,因此,他們有完全相同的能力水平分布,據此,這兩個被試組在兩個測驗上形成的得分分布中,分數位置水平相同的被試應該就是能力水平相同的被試,對應的兩個分數也就是等值的。
我們已經習慣於用標準分數來表示分數在被試群體中的位置,於是,在兩個測驗上標準分數相同的分數就是等值分數了,如下式所示:
令:
得到:
式(10-23)就是線性等值轉換的常用關係式,a和b稱為等值轉換係數,x為需要進行轉換的原始測驗分數,y為轉換到量表測驗單位上之後的分數。
這個等值方法可能存在的誤差,主要就是原理假設能否成立,也就是樣本是否來自同一個總體,他們能否都很好地代表總體。
(2)隨機等組-等百分位等值法
隨機等組-等百分位等值法的基本原理其實與上麵這個線性等值法是一樣的,都是基於兩個被試組是來自同一個總體的隨機樣本,他們有完全相同的能力水平分布,據此認為,兩個被試組在兩個測驗分數分布中,位置相同的分數就是等值的。隻不過在這裏,標誌位置信息的是百分等級,而不是標準分數。
對原始測驗分數進行等百分位等值轉換的具體步驟如下。
第一步:編製原始測驗分數和量表測驗分數的簡單次數及累積次數分布表。
第二步:根據原始測驗的簡單次數和累積次數分布表,求取某個分數x的百分等級PR。
第三步:根據量表測驗的簡單次數和累積次數分布表,求取PR所對應的分數y。
第四步:原始測驗分數的等值分數就是y。
2.基於項目反應理論的等值數據轉換方法
我們首先以三參數邏輯模型為例來認識以下式子之間的關係。首先,根據該模型,有以下關係式同時成立:
三參數邏輯模型為:
如果把式(10-24)至(10-27)代入式(10-28),經化簡後,將會得到式(10-29):
基於項目特征曲線的等值係數估計方法有多種。海巴拉最早提出基於項目特征曲線的等值法。下麵介紹的兩種等值係數估計方法均基於共同題設計模式(錨測驗設計)。
海巴拉方法的等值係數估計過程如下,符號使用也盡量按照海巴拉的習慣。
①選擇某個項目反應理論模型,分別獨立估計出兩個測驗的被試參數和項目參數,我們稱這兩個測驗為T1和T2。
②我們將測驗T1定為量表測驗,測驗T2上的參數需要進行單位轉換。
③為了讓測驗T2上的能力值與測驗T1上的能力值具有可比性,就必須進行單位量製轉換,θj,1=β·θj,2+α,其中,θ的第二個下標表示測驗單位。海巴拉還特別說明,任何非線性形式的量表轉換都將違反邏輯模型關於項目特征曲線形式的基本假設。
④完美的等值應該意味著,對於所有的共同題(common item,錨題)i(i=1,2,…,m)都有:
在這裏,參數的第二個下標仍然表示測驗單位。
⑤接下來的等值工作,就是找到能使式(10-30)對所有共同題都成立的β和α的值。
⑥海巴拉認為,在實際等值工作中,由於抽樣誤差和模型匹配問題,式(10-30)的兩邊不可能對所有共同題都能保證完全相等。所以,我們就應該找到使兩邊的值盡量接近β和α的值。於是,需要定義一個反映式(10-30)偏離程度的標準函數(criterion function),並找到使該標準函數最小化的β和α值。
⑦對於題目i(i=1,2,…,m)和被試j(j=1,2,…,n),定義差異變量:
並定義損失函數來標誌各種偏離造成的信息損失,於是,題目i的等值誤差(equating error)可以表示為:
總的等值誤差為:
⑧能使Q值最小化的β和α值,就是損失函數L的最佳等值係數估計值。
海巴拉還給出了具體估計β和α值的方案:首先對反應函數的差異如式(10-31)進行平方運算,消除正負符號;然後對錨測驗項目逐個地求所有被試的反應函數差異平方均值;然後累加所有錨測驗項目的差異平方均值;最後估計能使這個累加和最小化的等值係數,求解能使函數最小化的參數的問題,經常會轉化為函數對未知參數求一階導,並令其為0的過程,而解一階導方程的方法經常就是采用牛頓-拉夫孫迭代方法。具體的求導和解一階導方程的過程在此就不詳細敘述了,有興趣的讀者可以參看相關文獻,或者使用現成的程序。
斯托金-洛德基於項目特征曲線法提出了另外一種等值係數估計的方案。斯托金-洛德方法在構建等值方程估計等值係數時與海巴拉方法稍有不同,他們首先定義被試在測驗上的真分數為他在所有項目上的正確反應概率之和:
在共同題等值設計中,會有兩套獨立估計的錨測驗項目參數。但是,斯托金-洛德方法認為,隻要項目參數經過了單位轉換,同一個被試在錨測驗的兩套已知參數上計算出來的真分數應該是相等的,於是有:
這就是斯托金-洛德方法建構的等值方程,接下來的問題又是找到能使F達到最小時的β和α的估計值。問題的解決仍然是轉化為函數對未知參數求一階導,並令其為0的過程,而解一階導方程的方法仍然采用牛頓-拉夫孫迭代方法。具體的求導和解一階導方程的過程在此就不詳細敘述了,有興趣的讀者可以參看相關文獻,或者使用現成的程序。
從以上介紹可以看出,海巴拉方法與斯托金-洛德方法的不同在於,海巴拉方法是基於各個被試在單個項目上的反應函數的差異,而斯托金-洛德方法則是基於各個被試在所有共同項目上的反應函數累加和(真分數)差異。讀者在選擇時可以任意挑選一個。
3.基於認知診斷評價理論的等值過程
基於認知診斷評價理論的等值研究還非常少,辛和張(Xin & Zhang,2015)研究了認知診斷模型下觀察分數的局部等值方法。許和馮戴維研究了基於GDM模型的等值問題。
馮德林頓和威伯格(van der Linden & Wiberg,2010)提出了基於潛在真值的觀察分數等值轉換方法——局部等值(local equating)法。他們首先假設兩個等值測驗測量了相同的潛在特質結構,於是有以下觀察分數轉換模式:
θ為被試潛在能力水平;Fy|θ是測驗Y上潛在能力水平為θ的被試的觀察分數累積分布;Fx|θ是測驗X上潛在能力水平為θ的被試的觀察分數累積分布。
上式表達的轉換過程類似於經典測驗等百分位等值轉換過程,首先求取某觀察分數x在測驗X上的百分等級,然後對應該百分等級在測驗Y上轉換回等值分數。當然,這個轉換過程的內在邏輯與經典測驗等百分位等值有著本質的不同,局部等值是基於潛在真值的轉換,而經典測驗等百分位等值是完全基於觀察分數本身的轉換。
辛和張研究了局部等值法在認知診斷模型中的觀察分數等值問題。首先,他們假設兩個等值測驗測量了相同的潛在特質結構,擁有相同的鄰接矩陣或可達矩陣,即Ax=Ay或Rx=Ry,於是兩個測驗就會有相同的被試屬性掌握模式(AMP)集;同時假設相同的被試屬性掌握模式代表了相同的被試領域水平。基於此,局部等值法就可以應用於認知診斷模型的觀察分數等值轉換中。
由於各種誤差因素的存在,相同屬性掌握模式的被試可能會有不同的觀察作答反應模式(ORP)或觀察分數(observed score),這些不同的觀察作答反應模式或觀察分數將形成一個分布。於是有以下觀察分數轉換模式:
α是被試屬性掌握模式,在實際等值轉換過程中,α可以用估計值代替。
二、垂直量表化
垂直量表化也叫垂直鏈接,指的是在某個特質領域內,在縱向發展的不同水平(如年齡、年級)群體之間,建立關於群體或個體特質水平發展狀況的評價參照體係的過程。從概念上可以看出,垂直量表化是針對不同年齡或年級被試群體進行的,進行量表化的內容領域是相同的,如一般認知能力、語言能力、數學能力等。量表化的目的是建立不同年齡段或年級段之間的統一量表體係,從而可以評價和發現個體或群體的動態發展水平和趨勢。進行垂直量表化的測驗對於不同年齡或年級被試來說,雖然測試領域是相同的,但題目的具體內容和難度是不一樣的,因此,這樣的測驗就不能稱為平行測驗,也就不能通過等值的方法進行統一量表化。不過,在許多進行垂直量表化的方案中,可能會在相鄰的兩個年齡段或年級段測驗之間設置部分共同題目,以便建立測驗分數之間的連接關係,這與等值方案中的共同題(錨題)設計思想卻又是相同的。
(一)垂直量表化設計
在進行垂直量表化時,一般可能會涉及多個年齡段或年級段。其中一種設計方案是用一個統一的錨測驗,也叫量表測驗,施測於所有年齡段或年級段的被試,從而建立垂直量表,然後,不同年齡段或年級段的被試在非錨測驗上的得分就可以鏈接到該垂直量表上。然而這種設計方案可能存在問題,因為錨測驗中有的題目對於低年齡段或低年級段的被試來說太難了,甚至根本就沒有學過,而有些題目對於高年齡段或高年級段的被試來說又太容易了。這兩種情形下的題目,對於相應年齡段或年級段的被試水平估計均不能提供任何信息。根據這種想法,錨測驗對於不同年齡段或年級段被試的信度就可能存在很大差異,從而導致所建立的垂直量表不穩定。
垂直量表化的另一種設計方案是,先找一個起始年齡段或年級段,首先建立它與相鄰年齡段或年級段之間的鏈接,然後進一步建立該相鄰年齡段或年級段與下一個相鄰年齡段或年級段之間的鏈接,以此類推,從而建立起所有年齡段或年級段之間的垂直量表。這種設計方案可能也需要使用錨題,然而,錨題對於相鄰年齡段或年級段來說,信息量衰減不會太明顯。因此,通過相鄰年齡段或年級段建立鏈接來進行垂直量表化,應該是一個更合理的選擇。下麵介紹的量表化過程主要就是圍繞這種設計模式。
1.共同題設計
這種設計模式與前麵等值部分介紹的共同題設計模式本質上是一致的,隻是需要鏈接的被試組別更多,而且相互之間是縱向發展的。具體設計模式參考圖10-5。
圖10-5 垂直量表化-共同題設計模式
根據這種設計模式,3年級被試組需要作答本年級非錨測驗T3,同時需要作答適合3、4年級的錨測驗C34,4年級被試需要作答本年級非錨測驗T4,同時需要作答兩個錨測驗:適合3、4年級的C34和適合4、5年級的C45。因此,除了最低年級組和最高年級組,其餘各年級組均需要作答2個測驗,為了避免被試出現作答疲勞現象,就需要考慮結合下麵介紹的隨機等組設計。
隨機等組的概念與等值部分內容中的概念是一致的,隻是對於垂直量表化來說,隨機等組是在同一個年級組或年齡組內抽取,而且需要抽取更多個被試組。具體設計模式參看圖10-6。
圖10-6 垂直量表化-隨機等組設計模式
根據圖10-6所示的設計模式,除了最低年級組和最高年級組之外的其他年級組均需要抽取3個隨機等組被試組,其中一組作答與水平更低相鄰年級組的錨測驗,一組作答隻屬於本年級組的測驗,另外一組則作答與水平更高相鄰年級組的錨測驗。而最低年級組和最高年級組隻需要作答與其相鄰的一個錨測驗和一個隻屬於本組的測驗。
根據以上介紹,共同題設計和隨機等組設計其實是相互滲透、相互組合的。不管是哪種設計模式,不同年級或年齡水平被試總體之間不可能存在等組設計模式(即使找到等組,也不具有年級或年齡代表性),因此,不同年級或年齡水平之間總是要通過錨測驗進行鏈接。不同年級或年齡組之間的等值轉換關係也總是基於錨測驗來建立。
(二)等值關係轉換方法
根據不同的設計模式,可以運用本章第二節所講述的等值轉換方法,建立不同測驗分數之間的等值轉換關係。在這裏專門介紹一下另一種經常用於垂直量表化的轉換方法:瑟斯頓絕對量表法(Thurstone absolute scaling method)。
應用瑟斯頓方法要滿足兩個嚴格的假設:①進行轉換的被試樣本總體服從正態分布;②由潛在特質決定的特質分數是嚴格單調上升的,也就是潛在特質水平越高,則其觀察分數也必定會越高,這樣才能保證所有轉換關係的一致性。
我們先簡要地介紹一下在這兩個假設基礎上,瑟斯頓絕對量表法涉及的幾個基本式子。同時,在垂直等值設計中,不同水平群體必須通過錨測驗進行鏈接。所以,下麵敘述的內容情境也是專門參照這種設計進行理解的。如果被試群體水平不同,又沒有設計錨測驗進行鏈接,下麵式子中的各種變量關係將無法理解。
對於錨測驗上某個任意觀察分數x,可以分別計算出它在兩個被試組得分分布中的位置指標——z分數:
這個就可以表示為瑟斯頓絕對量表法關於兩個被試組的分數之間的轉換關係式。如果我們把第一組(變量下標為1者)規定為量表測驗組,第二組規定為原始測驗組(變量下標為2者),那麽,式(10-41)可以表示某個相同觀察分數,在原始測驗組上的位置轉換到量表測驗組之後的相應位置。也就是說,式(10-41)可以表示相同觀察分數在原始測驗組與量表測驗組之間的位置對應關係。我們也可以這樣來理解式(10-41)表達的意義:在原始測驗被試組上處於某個位置的被試,在量表測驗被試組中將會處於什麽位置。從形式上,瑟斯頓絕對量表法還經常會通過一個等值轉換表來呈現,在這個等值轉換表中,第一列為觀察分數;第二列為觀察分數在量表測驗上對應的位置;第三列為觀察分數在原始測驗上對應的位置。
不過,在實際等值設計中,常見的情形是,錨測驗隻是整個測驗的一部分,我們是希望通過錨測驗設計來等值被試在整個測驗上的得分。於是,我們還必須了解更多的相關式子。
瑟斯頓根據兩組被試水平之間與兩組題目難度之間有相同轉換關係模式的假設,認為式(10-41)與式(10-43)的斜率和截距應該對應相等,即有:
有了這兩個式子,就可以估計原始測驗組被試在作答量表測驗組整個測驗後的得分的平均數和標準差。
瑟斯頓絕對量表法等值轉換結果的可靠性可以通過兩個方麵進行評價:一方麵是通過直觀觀察,看觀察分數對應的兩列位置分數在坐標平麵上的散點圖是否是直線關係,越接近直線,等值轉換結果越可靠;另一方麵是通過計算兩列位置分數之間的皮爾遜相關係數進行統計評價,線性相關係數越接近1,說明等值轉換結果越精確可靠。在繪製散點圖時,一般橫坐標為原始測驗的位置分數,縱坐標為對應的量表測驗的位置分數,散點表示相同觀察分數分別在原始測驗和量表測驗上的對應位置,如圖10-7所示。
圖10-7 分數地位散點圖
在實踐中,瑟斯頓絕對量表法經常也會先將觀察分數進行正態化轉換,具體過程如下:
①分別繪製兩組原始分數的簡單次數和累積次數分布表,並把累積次數轉換為相應的百分比例。
③按照式(10-41)對兩列正態化分數進行等值轉換。需要特別注意的是,在這裏,正態化z分數代替了前麵講的觀察分數。式子中的平均數、標準差是根據兩列正態化z分數,也就是z′計算得到的。
正態化轉換是非線性轉換,它會改變分數的分布形態,但是不會改變分數之間的排列順序,因此,正態化z分數更大的值仍然對應原始觀察分數中更大的值,這就保證通過正態化z分數仍然可以找到對應的原始觀察分數。
關於瑟斯頓絕對量表法在實際使用中的效果,有許多評價。基於瑟斯頓絕對量表法的等值轉換效果必須是在各個假設條件成立的前提下才能保證。首先,來自正態分布總體的被試樣本的得分分布也應該服從正態分布。其次,由潛在特質水平決定的觀察分數或轉換分數很難保證嚴格的單調關係,它們總會受到各種隨機因素的影響,這當然就會進一步影響基於這個假設的等值轉換關係式的精確性。另外,關於“兩組被試水平之間與兩組題目難度之間有相同轉換關係模式”的假設應該成立,然而,這一點在垂直等值情形中很難做到,當然,如果所有被試測試的題目完全一樣,結果會更好。也許垂直等值方法需要進行更多研究。另外,錨測驗要對整體測驗具有很好的代表性,這樣才能保證兩個被試組在錨測驗上的分布性質,能夠被推廣到他們在整個測驗的作答分數分布形態上。
本章小結
本章主要介紹了認知診斷評價中涉及的兩個重要研究領域,即信息量和等值。然而,目前這兩個領域並未得到廣泛深入的研究,因此在此獨立成章一並進行簡要介紹。
認知診斷評價首先需要實現對被試認知狀態的精確估計,為此,需要收集被試在測驗項目上的作答信息,並以此為基礎確認對被試認知發展狀態的認識。
在認知診斷評價中,信息反映了不同項目在認識被試或鑒別不同被試認知發展狀態時的價值大小。信息量反映了不確定度的大小、認識誤差的大小或測量誤差的大小。信息的大小與項目本身(信息源)的特征有關係,同時與被試本身(信息接收者)的特征也有關係。為了能夠精確地估計或鑒別不同被試水平,經常借助信息量指標作為參照,挑選能夠為被試帶來更大信息的項目進行測試,以實現有目的的、更加高效的測試評價過程。
認知診斷評價理論中的項目和被試參數化方式與項目反應理論存在著較大的差異,因此,其信息量的計算表達方式也不相同,但根本原理卻是一致的。部分指標的具體應用請參看認知診斷計算機化自適應測驗一章中的相關內容。
等值是大規模評價的必要過程,它能夠保證不同群體在不同時間、不同測試模式之間的可比性。認知診斷評價領域關於等值的研究還非常少,本章隻是簡要介紹了兩個已有研究中的等值方法,而對於模型參數的等值轉換研究還未發現。希望通過對各種等值方法的介紹能夠為進一步的等值研究提供參考借鑒。
思考題
1.信息、信息熵和信息量的概念是什麽?
2.綜合前麵章節所學到的知識,你了解的評價信息量的主要方法有哪些?
3.等值的意義是什麽?等值設計的主要方法有哪些?