第五章
測量效度>>練習與思考
練習與思考:
1.什么是測量的效度?它與信度的關系這樣?
2.什么是內容效度?測驗編制者和使用者應分別從哪幾個方面來把握內容效度?
3.什么是結構效度?測驗編制者和使用者應分別怎樣把握結構效度?
4.什么的實證效度?它與內容效度和結構效度有何異同?
5.什么是效標和效標測量?
6.已知
若希望把效度系數提高到0.65和0.70,則測驗長度要增加幾倍?
解答要點:
1.(1)效度是指一個測驗或量表實際能測出其所要測的心理特質的程度。
①信度高是效度高的必要而非充分條件
當隨機誤差的變異(
)減小時,真實分數的變異數增加,測驗信度(
)隨之提高。信度的提高只給有閑變異數(
的增加提供了可能)至于是否能提高效度,還要看系統誤差變異數(
的大小)。可見,信度高不一定效度就高。但一個測驗要想效度高,真分數的變異數必須占較大的比重,即測驗的信度必須高。
②測驗的效度受它的信度制約
根據效度和信度的定義(
)以及公式(
)可得到:
2.(1)內容效度是指一個測驗實際測到的內容與所要測量的內容之間的吻合程度。
(2)測驗的編制者和使用者應該從以下幾個方面來把握內容效度:
①首先應該明確內容效度的含義;
②應該明確內容效度的應用范圍;
③在使用時還要主要不要跟表面效度相混淆;
④對測驗的編制者來說應該懂得確定測驗內容效度的方法,明確確定內容效度的步驟。
3.(1)結構效度是指一個測驗實際測到所要測量的理論結構和特質的程度,或者說它是指測驗分數能夠說明心理學理論的某種結構或特質的程度。
(2)對于編制者和使用者來說應該從以下幾個方面來把握結構效度:
①首先應該明確結構效度含義;
②其次也應該了解結構效度的特點;
③應知道結構效度的應用范圍;
④對測驗的編制者來說應該懂得確定測驗結構效度的方法,明確確定結構效度的步驟。
4.(1)實證效度是指一個測驗對處于特定情境中的個體的行為進行估計的有效性。
(2)實證效度與內容效度和結構效度一樣都用于估計測驗效度。
(3)實證效度與內容效度和結構效度的不同之處在于:
①它們是估計測驗效度的不同方面;
②它們的應用范圍不同;
③確定它們的方法也不同。
5.(1)效標是衡量一個測驗是否有效的外在標準,它是獨立于測驗并可以從實踐中直接獲得的我們所感興趣的行為。
(2)效標測量就是把我們所感興趣的行為用數字或等級表達出來。
6題:
得當效度系數提高到0.65時,測驗長度要增加6.4倍;
當效度系數提高到0.70時,測驗長度要增加20倍。
第六章
測驗的項目分析>>練習與思考
1.測驗項目分析的作用是什么?
1.因為用測驗的項目分析可以解決以下問題:
(一)項目是否具有所預期的功能?對于常模參照測驗,測題是否有足夠的區分度?對目標參照測驗來說,測題是否能充分地測量到教學的結果。
(二)項目的難度是否得當?
(三)項目是否有缺陷?
第七章
測驗常模>>練習與習題
練習與思考:
1.試比較各種導出分數的優缺點。
2.列舉你所了解的各種測驗的分數合成方法,并評價它們的合理性。
3.選擇常模團體與制定常模有什么關系?任何選擇好常模團體?
4.離差智商與比率智商的本質差異是什么?
(此題為思考題)
解答要點:
1.常用的導出分數有百分等級、標準分數、T分數。
百分等級
百分等級的優點:百分等級是一種相對位置量數,具有可比性,且具有易于計算、解釋方便等優點,對一般教師、學生和家長來說,均能了解百分等級的意義,所以它較適用于不同的對象和性質不同的測驗。另外,百分等級不受原始分數分布狀態的影響,即使分數分配不是正態的,也不會改變百分等級常模的解釋能力。
百分等級的缺點:
(1)百分等級的單位不等,尤其在分配的兩個極端。如果原始分數的分配是正態或近似正態分布,則靠近中央(平均數或中位數附近)的原始分數轉換成百分等級時,分數之間的差異便夸大了,雖然原始分數比較靠近,但轉換成百分等級后,卻顯示出很大的差異性;對接近兩極端的原始分數,百分等級反應遲鈍,即使原始分數發生較大的變化,也不能引起百分等級的相應變化,使得其差異被縮小了。
(2)百分等級只具有順序性,無法用它來說明不同被試之間分數差異的數量。它不適合計算平均數、相關系數及其它統計量數。
(3)百分等級只相對于特定的被試團體而言的。因此在解釋時不能離開特定的參照團體。被試得分不變,但參照團體改變了,百分等級值就可能發生變化。所以在報告百分等級時,一定要說明是相對于什么參照團體來說的。
標準分數
標準分數的優點:標準分數是一個抽象值,不受原始測量單位的影響,并可接受進一步的統計處理。具有可比性和可加性。
標準分數的缺點:由于計算中經常出現負數和小數,且單位過大(一個標準差單位),所以,使用起來不夠方便。
T分數
T分數的優點:
(1)
具有等單位特點,便于工作進一步的統計分析。
(2)正態分布下,可以利用正態分布表將各種導出分數與百分數等級分數作換算。
(3)正態分布下,運用某種變式分數可以將幾個測驗上的分數作直接的比較。即使是非正態分布,也可運用由正態化的Z分數轉換而得的變式分數進行直接比較分析。
T分數的缺點:
(1)分數過于抽象,不易理解,正如在介紹麥柯爾的T分數時所提到的那樣不為一般人所熟悉。
(2)在非正態分布下,分布形態不同的變式分數,仍然不可以作相互比較,也不能相加求和。
2.(1)臨床診斷--直覺合成:在實際工作中,最常用的組合測驗分數的方法是根據經驗對測驗分數作直覺的組合,這就好比臨床醫生,把各種化驗、檢驗所獲得的資料與實際觀察所得的結果結合起來,根據經驗作出診斷一樣。象這種根據直覺的經驗,主觀地將各種因素加權,而獲得結論或預測的方法叫作臨床診斷。
臨床診斷--直覺合成的合理性表現在:
①具有高度的綜合性。它允許我們從整體上來考察問題,充分考慮各測驗所測特質間交互影響,各測驗上所得分數的對比關系與組合類型的結構特點,測驗分數與實際反應表現其中的生動關系等。
②具有靈活的針對性,能就特定的個人作具體的結論。而一般的統計方法具有常模性,常模性的統計模式難于適應每個個體所具有的獨特性,更難于適應非典型的新穎形式。
(2)加權求和合成:如果各個測驗所測特質間相互代償作用,這些測驗上的分數又是連續性資料,并能大體同時獲得,那么可以采用加權求和的立法對分數進行合成。
加權求和合成的合理性表現在:
將變量做了等量加權后適合于各測驗對預測效標具有同等重要性的場合,根據各個變數與效標之間的經驗關系作差異加權后適合于各測驗對預測效標具有不相等的場合。
(3)多重回歸:多重回歸就是研究一種事物或現象與其他多種事物或現象在數量上相互聯系和相互制約的統計方法。
多重回歸的合理性表現在:
(4)多重劃分:多重劃分就是在各個特質上都確定一個標準,從而把成績劃分為合格與不合格兩類。在一個測驗上合格了,不能保證總的要求一定能合格。只有每個測驗都合格時,總要求才算合格。
多重劃分的合理性表現在:
3.選擇常模團體與制定常模的關系:制定常模首先要確定出常模團體。
應該這樣選擇常模團體:
(1)
群體構成的界限必須明確。
在確定常模團體時,必須清楚地說明所要測量的群體的性質與特征。雖然有關常模團體的一般規定取決于測驗的目的與使用,且可能有多個常模團體。但對每個常模團體的性質和特征必須有一個簡短而明確的描述,若群體過大,群體內部也許有許多小團體,它們在一個測驗上的表現也時常有差異,假如這種差異較為顯著,就必須對每個小團體分別建立常模。例如,艾森克個性預測(EPQ),就是分性別,以不同年齡組而建立常模的。
(2)
常模團體必須是所測群體的一個代表性樣本。
當所要測量的群體較小時,將所有的被試逐個測量以得到常模。在群體較大時,則不可能如此,只能測量一部分被試作為群體的代表,此時就存在取樣是否具有代表性的問題。如果常模團體缺乏代表性,將會使常模資料產生偏差,從而影響到測驗結果解釋的準確性。為了克服取樣偏差,保證具有代表性,一般在抽樣時應遵循隨機化原則,采用統計學的方法抽取樣本。關于具體抽樣方法,可參閱有關統計學著作中的抽樣推斷部分。
(3)
取樣的過程必須明確且有詳盡的描述。
取樣的過程必須明確且有詳盡的描述,這主要是為了使測驗的使用者不至于誤用測驗和錯誤地解釋測驗結果,所以在一般的測驗手冊中,都有相當篇幅詳細介紹常模團體的大小、取樣策略、取樣時間以及其他有關情況。這些說明和描述越明確、越詳盡夜好。
(4)
樣本大小要適當。
所謂"大小適當"并沒有明確的指標。根據統計學原理,取樣誤差與樣本大小成反比。所以,在其他條件相同時,樣本越大越好。但是還應考慮到人力、物力等方面的因素,通常在決定樣本大小時,應注意:
①總體的數目。總體數目小,樣本相應可小些,但不應過小,若總體過小,則可將全部被試入選;當總體較大時,相應樣本也大。
②群體的性質,如果群體性質單一,則樣本不必太大,即可以反映群體性質;若群體性質復雜,則樣本容量(n)就應大一些。
③測驗結果的精確度。根據統計學原理,抽樣誤差的大小與樣本容量成反比,若要提高精確度,即是說減低抽樣誤差,就必須加大樣本容量(n)。
(5)
常模團體必須是近時的。由于當今教育發展迅速,所以建立的常模必須是近時的,過時的常模是不能作為參照標準的,一個常模不能一勞永逸地使用。
(6)
注意一般常模與特殊常模的結合。測驗手冊上所列的常模通常為一般常模,它的使用范圍比較廣。有時對于某些特殊的群體不一定完全適用。因此,測驗在希望使用更為具體的、適合特殊情況的常模。即特殊常模。將特殊常模與一般常模結合起來,可使被試與最接近的群體進行比較。因為各個具體群體在某些方面是獨特的,它的成員將與測驗手冊所列的常模團體成員不符。所以,依據一般常模解釋所得的結論可能不夠恰當,如果將兩者結合使用,解釋分數便會更加準確。但特殊常模只提供有關特殊信息,適用范圍較窄。所得結論不能在廣泛的背景作解釋。