




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第四章心理測驗的
信度與效度任濱海1第四章心理測驗的
信度與效度任濱海1提綱信度信度概述信度的類型影響信度的因素效度效度概述效度的類型影響效度的因素2提綱信度2SV2SI2SE2SX2ST2
3SV2SI2SE2SX2ST23第一節(jié)信度一、信度定義1、通俗的定義信度,即測量的可靠性,多次測量結(jié)果保持一致性的程度。4第一節(jié)信度一、信度定義42、測量學(xué)定義:信度為一組測量分?jǐn)?shù)的真分?jǐn)?shù)方差和總方差(實得分?jǐn)?shù)的方差)的比率。信度乃是一個被試群體的真分?jǐn)?shù)與實得分?jǐn)?shù)的相關(guān)系數(shù)的平方。信度乃是一個測驗X與它的任意一個平行測驗Y的相關(guān)系數(shù)。信度只受隨機(jī)誤差影響,系統(tǒng)誤差不影響信度52、測量學(xué)定義:5二、信度的指標(biāo)信度以信度系數(shù)為指標(biāo),常用相關(guān)系數(shù)表示,表示實得分?jǐn)?shù)的變異數(shù)中有多少比例是由真分?jǐn)?shù)的變異決定的,信度系數(shù)以相關(guān)系數(shù)為指標(biāo),rxx=rxT2=ST2/SX2信度的平方根就是信度指數(shù),rxT=ST/SX6二、信度的指標(biāo)6信度指數(shù)(rxT)與信度系數(shù)(rXX)實得分?jǐn)?shù)σx2真實分?jǐn)?shù)
σT2rxx信度系數(shù)(百分比)rOT2信度指數(shù)(實得分?jǐn)?shù)與真實分?jǐn)?shù)的相關(guān))rxx=rxT27信度指數(shù)(rxT)與信度系數(shù)(rXX)實得分?jǐn)?shù)σx2真實分信度定理:定理1:如果滿足獨(dú)立性條件(即誤差分?jǐn)?shù)與真分?jǐn)?shù)無關(guān))時,真分?jǐn)?shù)方差與觀察分?jǐn)?shù)方差之比(信度系數(shù))等于真分?jǐn)?shù)與觀察分?jǐn)?shù)之間的相關(guān)系數(shù)的平方。定理2:如果滿足平行測驗條件時,真分?jǐn)?shù)方差與觀察分?jǐn)?shù)方差之比(信度系數(shù))等于兩個平行測驗的觀察分?jǐn)?shù)之間的相關(guān)系數(shù)。補(bǔ)充:信度系數(shù)、信度指數(shù)、測定系數(shù)的討論Baidu測定系數(shù)信度系數(shù)搜索。8信度定理:補(bǔ)充:信度系數(shù)、信度指數(shù)、測定系數(shù)的討論8三、信度的評估方式(一)重測信度(二)復(fù)本信度(三)內(nèi)在一致性信度(四)評分者信度9三、信度的評估方式9(一)重測信度1、定義:用同一個測驗對同一組被試在不同時間施測兩次所得結(jié)果的一致性程度,其大小等于同一組被試在兩次測驗上所得分?jǐn)?shù)的皮爾遜積差相關(guān)系數(shù)。又稱穩(wěn)定性信度、再測信度、施測—再施測信度、跨時間一致性。10(一)重測信度10施測時間間隔再施測
相關(guān)系數(shù)圖1重測信度圖式11施測時間間隔再施測圖1重測信度圖式10名學(xué)生幸福感調(diào)查的兩次施測分?jǐn)?shù)重測信度的計算舉例ABCDEFGHIJ161513131110109871516141210911867X1X21210名學(xué)生幸福感調(diào)查的兩次施測分?jǐn)?shù)重測信度的計算舉例2、注意事項:所測量的心理特性必須是穩(wěn)定的。遺忘和練習(xí)的效果基本上是相互抵消的。在兩次施測的間隔時期內(nèi),被試在所要測驗的心理特質(zhì)方面沒有獲得的更多的學(xué)習(xí)和訓(xùn)練。易受練習(xí)和記憶的影響,兩次測試的時間間隔要適當(dāng),一般是2~4周較宜,間隔時間最好不超過6個月。132、注意事項:13(二)復(fù)本信度1、定義:又稱等值性系數(shù),是以兩個等值但題目不同的測驗(復(fù)本)來測量同一群體,然后求得被試者在兩個測驗上得分的相關(guān)系數(shù)。2、方法:為排除施測順序的影響,在實施時,可將被試先分為兩組,一組人先作A型測驗,再作B型測驗;另一組人則反之。14(二)復(fù)本信度14施測A型最短時距施測B型
相關(guān)系數(shù)圖2復(fù)本信度圖式15施測A型最短時距施測B型圖2復(fù)本信度圖式10名學(xué)生創(chuàng)造力的復(fù)本測驗結(jié)果復(fù)本信度的計算舉例ABCDEFGHIJX1X22019181817161412121020201916161712111391610名學(xué)生創(chuàng)造力的復(fù)本測驗結(jié)果復(fù)本信度的計算舉例AB3、注意事項要構(gòu)造真正的平行測驗復(fù)本測驗必須在題目的內(nèi)容、數(shù)量、形式、難度、區(qū)分度、指導(dǎo)語、時限以及所用的例題、公式、測驗其它方面都相同或相似。被試有條件接受兩個測驗。173、注意事項17(三)內(nèi)部一致性信度1、定義:反映的是題目之間的關(guān)系,表示測驗?zāi)軌驕y量相同內(nèi)容或特質(zhì)的程度。2、方法:(1)分半信度:通常是先把一份測驗按題目的奇偶順序或其它方法分成兩個盡可能平行的半份測驗,然后計算兩半之間的相關(guān),即得到分半信度系數(shù)。18(三)內(nèi)部一致性信度18兩半變異數(shù)相等:積差相關(guān)斯皮爾曼-布朗公式校正19兩半變異數(shù)相等:19變異數(shù)不相等:弗朗那根(Flanagan)公式:盧倫(Rulon)公式:20變異數(shù)不相等:20(2)同質(zhì)性信度:測驗內(nèi)部所有題目間的一致性。用每個題目和其它題目平均數(shù)的相關(guān)。當(dāng)各測題得分有較高的正相關(guān)時,即為同質(zhì);相反,測題間相關(guān)很低或為負(fù)相關(guān)則為異質(zhì)。0、1計分項目(庫德(Kuder)-理查遜(Richardson)方法)非0、1計分項目(α系數(shù)或克倫巴赫(Cronbach)公式)21(2)同質(zhì)性信度:21注意事項在一個測量多種特質(zhì)的問卷中,不同的因子的同質(zhì)性信度應(yīng)該分開計算??藗惏秃咋料禂?shù)相當(dāng)于計算了所有項目間的一致性程度,避免了分半信度由于分半方式不同所造成的分半系數(shù)不一致的問題。22注意事項22(四)評分者信度1、定義:用于測量不同評分者之間所產(chǎn)生的誤差。是由多個評分者給一組測驗結(jié)果評分,所得各個分?jǐn)?shù)之間的一致性。對于客觀性試題,評分所引起的誤差或忽略不計對于主觀性題目來說,不同評分人員對相同被試的評分存在差異。如心理測量中的投射測驗,學(xué)業(yè)測驗中的高考作文,職業(yè)選拔中的面試等。一般要求在成對的受過訓(xùn)練的評分者之間平均一致性達(dá)0.90以上,才認(rèn)為評分是客觀的。23(四)評分者信度232、計算當(dāng)評分者為2人時,可以積差相關(guān)或等級相關(guān)當(dāng)評分者多于2人時,可以使用肯德爾和諧系數(shù)242、計算24如有A、B、C三位專家給6位應(yīng)聘者的面試評分,結(jié)果如下,試求評分者信度。
ABC175664529072603816354460604258475636969066
ABCRi15451422237345413466618533286111325如有A、B、C三位專家給6位應(yīng)聘者的面試評分,結(jié)果如下,試求=14+7+13+18+8+3=63=142+72+132+182+82+32=811由題意知K=3,N=6,將上述值代入公式有:W==0.95如在評定中有相同的等級時,用下式校正。其中n為相同等級的個數(shù)
26=14+7+13+18+8+3=63由題意知K=3,N四、信度對測驗分?jǐn)?shù)的意義1、解釋真實分?jǐn)?shù)與實得分?jǐn)?shù)的相關(guān)信度系數(shù)可以解釋為測驗的總變異中,真分?jǐn)?shù)造成的變異占百分之幾。如,當(dāng)rxx=0.90時,我們可以說實得分?jǐn)?shù)中有90%的變異是真分?jǐn)?shù)造成的,僅10%來自測驗的誤差。rxx=1.00,則表示完全沒有測量誤差,所有的變異均來自真實分?jǐn)?shù);同樣,信度系數(shù)也告訴測量的誤差比例是多少。
27四、信度對測驗分?jǐn)?shù)的意義272、確定信度可以接受的水平一個測驗究竟信度多高才合適,才讓人滿意呢?當(dāng)然,最理想的情況是rxx=1.00,但實際上是辦不到的。根據(jù)多年的研究結(jié)果,一般的能力測驗和成就測驗的信度系數(shù)都在0.90以上,有的可以達(dá)0.95;而人格測驗、興趣、態(tài)度、價值觀等測驗的信度一般在0.80~0.85或更高些。一般原則是:當(dāng)rxx<0.70時,測驗不能用于對個人做出評價或預(yù)測,而且不能作團(tuán)體比較;當(dāng)0.70≤rxx<0.85時,可用于團(tuán)體比較;當(dāng)rxx≥0.85時,才能用來鑒別或預(yù)測個人成績或作為。282、確定信度可以接受的水平283、解釋個人分?jǐn)?shù)的意義(區(qū)間估計)從信度可以解釋個人分?jǐn)?shù)的意義,這就是測量標(biāo)準(zhǔn)誤的應(yīng)用。它有兩個作用其一是估計真實分?jǐn)?shù)的范圍;其二是了解實得分?jǐn)?shù)再測時可能的變化情形。
2929由于誤差的存在,一個人通過測量得到的分?jǐn)?shù)很難等于真分?jǐn)?shù)。理論上,我們可以對一個人施測無數(shù)次,然后求得所得分?jǐn)?shù)的平均數(shù)和標(biāo)準(zhǔn)差。在這個假設(shè)的分布里,平均數(shù)就是這個人的真分?jǐn)?shù),標(biāo)準(zhǔn)差則為誤差大小的指標(biāo)。30由于誤差的存在,一個人通過測量得到的分?jǐn)?shù)很難等于真分?jǐn)?shù)。理論3131在實際工作中,我們用一組被試(人數(shù)足夠多)兩次施測的結(jié)果來代替對同一個人反復(fù)施測,以估計測量誤差的變異數(shù)。此時,個人在兩次測驗中的分?jǐn)?shù)差異就是測量誤差。據(jù)此可制成誤差分?jǐn)?shù)的分布。這個分布的標(biāo)準(zhǔn)差(誤差分布的標(biāo)準(zhǔn)差)我們稱之為測量的標(biāo)準(zhǔn)誤,是表示測量誤差的大小的指標(biāo),其計算公式為:(公式5-4)式中SE表示測量的標(biāo)準(zhǔn)誤,即誤差分布的標(biāo)準(zhǔn)差;Sx表示一次測量分?jǐn)?shù)的標(biāo)準(zhǔn)差;rxx表示信度系數(shù)。32在實際工作中,我們用一組被試(人數(shù)足夠多)兩次施測的結(jié)果來代我們可以用測量的標(biāo)準(zhǔn)誤來估計個人測驗的真分?jǐn)?shù)的大小。
如果選用95%的可靠性水平(置信水平),即顯著性水平(a值)為.05,,真分?jǐn)?shù)有95%的可能落入X±1.96SE,即X±1.96SE的范圍之內(nèi),也可以寫成X-1.96SE
T
X+1.96SE,SE則用公式5-4代入?;蛴?%的可能落入這范圍之外。這實際上也表明了再測時分?jǐn)?shù)改變的可能范圍。
33我們可以用測量的標(biāo)準(zhǔn)誤來估計個人測驗的真分?jǐn)?shù)的大小。33例1,已知WISC-R的標(biāo)準(zhǔn)差為15,信度系數(shù)為0.95,對一名12歲的兒童實施該測驗后,IQ為110,那么他的真分?jǐn)?shù)在95%的可靠度要求下,變動范圍應(yīng)是多大?
34例1,已知WISC-R的標(biāo)準(zhǔn)差為15,信度系數(shù)為0.95,對=103.4<<116.635=103.4<<116.635注意幾點(diǎn):(1)SE對真分?jǐn)?shù)做的是區(qū)間估計,不可能由此得到一個確切的點(diǎn)。這就是說,測驗分?jǐn)?shù)不是一個定點(diǎn),而是具有一定的分布范圍。因此,兩次測驗分?jǐn)?shù)之間存在差異是很正常的。(2)置信水平確定后,估計的精度主要取決于SE,SE越小,范圍越小,估計就越精確,反之也然。(3)真分?jǐn)?shù)不能等同于真正能力或心理特質(zhì),真分?jǐn)?shù)中包括了系統(tǒng)誤差。
36注意幾點(diǎn):364、比較不同測驗分?jǐn)?shù)的差異測量標(biāo)準(zhǔn)誤和測驗信度在評價兩個不同測驗的分?jǐn)?shù)是否有明顯差異時也非常重要。這種比較包括兩個人不同分?jǐn)?shù)的差別和同一被試在兩個測驗上的差別。374、比較不同測驗分?jǐn)?shù)的差異37我們可以用“差異的標(biāo)準(zhǔn)誤”來檢驗差異的顯著性。差異的標(biāo)準(zhǔn)誤的公式為:(公式5-5)為差異的標(biāo)準(zhǔn)誤,S為相同尺度的標(biāo)準(zhǔn)分?jǐn)?shù)的標(biāo)準(zhǔn)差,Z分?jǐn)?shù)為1,T分?jǐn)?shù)為10。、分別為兩個測驗的信度系數(shù)。先將原始分?jǐn)?shù)化成標(biāo)準(zhǔn)分?jǐn)?shù),然后將兩個標(biāo)準(zhǔn)分?jǐn)?shù)的差異與1.96SEd(0.05顯著性水平)進(jìn)行比較,如果其絕對值大于此值,則差異顯著,否則差異不顯著。38我們可以用“差異的標(biāo)準(zhǔn)誤”來檢驗差異的顯著性。38例題某被試在韋氏成人智力測驗中言語智商為102,操作智商為110。假設(shè)言語測驗和操作測驗的信度分別為0.87和0.88,則該被試的操作智商與言語智商有顯著性差異嗎?解答一:標(biāo)準(zhǔn)分?jǐn)?shù)差異的范圍(95%):-1.96×7.5~1.96×7.5-14.7~14.7所以被試的操作智商與言語智商無顯著性差異39例題某被試在韋氏成人智力測驗中言語智商為102,操作智商為1解答二40解答二40例,某校五年級進(jìn)行了兩次數(shù)學(xué)測驗,小張第一次考了85分,此次數(shù)學(xué)測驗?zāi)昙壠骄质?7分,標(biāo)準(zhǔn)差是8分,此次測驗的信度系數(shù)是0.84;第二次考了95分,此次數(shù)學(xué)測驗?zāi)昙壠骄质?1分,標(biāo)準(zhǔn)差是10分,此次測驗的信度系數(shù)是0.91;問小張這兩次數(shù)學(xué)測驗的成績是否有顯著差異?
41例,某校五年級進(jìn)行了兩次數(shù)學(xué)測驗,小張第一次考了85分,此次五、影響信度的因素樣本的影響樣本團(tuán)體的異質(zhì)性高,信度就高樣本團(tuán)體平均能力水平的影響測驗長度的影響可以通過增加測驗長度的方式提高信度值。新增項目必須與試卷中的原有項目同質(zhì)。新增項目的數(shù)量必須適度。42五、影響信度的因素42如由50題組成的兒童心理學(xué)測驗,其信度系數(shù)為0.72,若再增加30個與原測驗難度相近且同質(zhì)性的題目,問長度增加后的測驗系數(shù)是多少?=0.8043=0.8043例:有一個包括10個題目的測驗,信度為0.50,若把測驗增加到50個題目,其信度將增加到多少?
44例:有一個包括10個題目的測驗,信度為0.50,若把測驗增加用同樣方法可以算出題目數(shù)量繼續(xù)增加時相關(guān)系數(shù)的值見下表表題目數(shù)量對相關(guān)系數(shù)的影響題目數(shù)量1050100200300400500相關(guān)系數(shù)0.500.830.910.950.9680.9760.98045用同樣方法可以算出題目數(shù)量繼續(xù)增加時相關(guān)系數(shù)的值見下表題目數(shù)由表可以看出,增加題目數(shù)量可以提高信度,但并非多多益善。測驗過長是得不償失的:(1)測驗過長,編制測驗要浪費(fèi)較多的時間和精力,施測時浪費(fèi)受測者的時間和精力,花費(fèi)大。(2)測驗過長會引起被試的疲勞和反感,從而降低可靠性。為了節(jié)省時間和精力,有時還需要將過長的測驗適當(dāng)縮短,而不使其對信度有大的損害。
46由表可以看出,增加題目數(shù)量可以提高信度,但并非多多益善。測驗測驗難度的影響測驗太難或太容易,則分?jǐn)?shù)的范圍會縮小,從而降低信度。應(yīng)該有一個適當(dāng)?shù)碾y度水平,以產(chǎn)生最廣的分?jǐn)?shù)分布。各類選擇題的理想平均難度:五擇一測題,0.70;四擇一測題,0.74;三擇一測題,0.77;是非題,0.85.47測驗難度的影響47
1007550
250123分?jǐn)?shù)評量次數(shù)難度太小難度太大適當(dāng)難度平均數(shù)(M):852160標(biāo)準(zhǔn)差(
):3.94.212.4信度(KR21):0.430.460.90
分?jǐn)?shù)之分散度和難度與信度之間的關(guān)係481001時間間隔的影響只對重測信度有影響49時間間隔的影響491.對5個學(xué)生進(jìn)行某種測驗,得分分別為14、11、13、16、15。為了考察這個測驗的信度,在20天后用原量表再次測驗,得分分別為13、12、14、15、16。試計算穩(wěn)定性系數(shù),并解釋之。小測驗501.對5個學(xué)生進(jìn)行某種測驗,得分分別為14、11、13、162.有16人參加的一項測驗,本擬再測一次以估計信度,但因?qū)W生畢業(yè)離校,無法再測,現(xiàn)把各人奇數(shù)題得分和偶數(shù)題得分分列后,請估計測驗結(jié)果的信度。得分被試奇數(shù)題1817181514171713偶數(shù)題1817161613181714得分被試奇數(shù)題1313161415161316偶數(shù)題1313141414161517512.有16人參加的一項測驗,本擬再測一次以估計信度,但因?qū)W生3.4位教師評閱5份試卷,所評等級如下表,問評分是否一致?
閱卷者(K=4)
作文編號(N=5)
12345張25431王15432李14532趙25431523.4位教師評閱5份試卷,所評等級如下表,問評分是否一致?4.有一種包含7個論文式題目的測驗,對6個應(yīng)試者施行,得分見下表,試求該測驗的信度。題號被試12345616117897259678737969684838879591177996911710101071091112810534.有一種包含7個論文式題目的測驗,對6個應(yīng)試者施行,得分第二節(jié)效度ENGLISH54第二節(jié)效度ENGLISH54一、效度的定義1、效度的通俗定義效度指的是測量的正確性,即一個測驗或量具能夠測量出其所要測量的東西的程度。效度所要回答的問題是:(1)一個測驗測量了什么特性?或者說,測驗測到了它所要測量的東西嗎?(2)它對所要測量的特性測得有多準(zhǔn)?55一、效度的定義552、效度的理論定義:一組測量中,與測量目標(biāo)有關(guān)的真實方差與總方差的比率。效度除受隨機(jī)誤差影響外,還受系統(tǒng)誤差的影響。562、效度的理論定義:一組測量中,與測量目標(biāo)有關(guān)的真實方差與總二、效度的性質(zhì)1、效度具有相對性相對某一目標(biāo)的有效性2、效度具有連續(xù)性只有程度上的不同,而沒有“全有’或“全無”的區(qū)別反映有效性程度高低57二、效度的性質(zhì)57三、效度評估的三種方法(一)內(nèi)容效度(二)結(jié)構(gòu)效度(三)實證效度58三、效度評估的三種方法58(一)內(nèi)容效度1、定義:指測驗題目對欲測內(nèi)容或行為取樣的適當(dāng)程度,從而確定測驗是否是所欲測量的行為領(lǐng)域的代表性取樣2、一個測驗要有內(nèi)容效度必須具備兩個條件:(1)要有定義得完好的內(nèi)容范圍
20以內(nèi)的加減法
中小學(xué)生的心理健康的特點(diǎn)和表現(xiàn)。
(2)測驗項目應(yīng)是已界定的內(nèi)容范圍的代表性樣本
如果把所有的內(nèi)容視為一個總體,那么測驗項目可以視為一個樣本,這個樣本要具有代表性,這個樣本能夠代表總體的程度就是內(nèi)容效度。59(一)內(nèi)容效度593、確定內(nèi)容效度的方法(1)專家判斷法:內(nèi)容效度又稱“邏輯效度”①明確欲測內(nèi)容的范圍。包括知識范圍和能力要求兩個方面。②編制雙向細(xì)目表,要求測驗編制者將各個條目所欲測的內(nèi)容和技能要求列出,并將條目與第一步確定的要求相結(jié)合。③制定評定量表來冊來測量測驗的效度。603、確定內(nèi)容效度的方法60雙向細(xì)目表表格左方表示教學(xué)所欲達(dá)成的目標(biāo),上方表示教材內(nèi)容範(fàn)圍,並逐一檢視每一試題以考驗整份測驗之內(nèi)容效度題數(shù)內(nèi)容範(fàn)圍行為目標(biāo)細(xì)胞能量代謝光合作用呼吸作用生物分子總題數(shù)分?jǐn)?shù)百分比知識02110446.7理解201227711.7應(yīng)用121116610.0分析112116610.0綜合211217711.7評鑑01121558.3情意10111446.7技能10010223.3簡答題1111151931.7總題數(shù)98912846
分?jǐn)?shù)1110141510
60
百分比18.316.723.325.016.7
10061雙向細(xì)目表題數(shù)內(nèi)容範(fàn)圍行為目標(biāo)細(xì)胞能量代謝光合作用呼吸作用生(2)統(tǒng)計分析法克倫巴赫(Cronbach)提出內(nèi)容效度的統(tǒng)計分析方法。從同一個教學(xué)內(nèi)容總體中抽取兩套獨(dú)立的平行測驗,用這兩個平行測驗來測同一批被試,求其相關(guān)。若相關(guān)低,則兩個測驗中至少有一個缺乏內(nèi)容效度;若相關(guān)高,則測驗可能有較高的內(nèi)容效度(除非兩個測驗取樣偏向同一個方面)。再測法在被試學(xué)習(xí)某種知識之前作一次測驗,在學(xué)過該知識之后再作同樣的測驗。這時,如果后測成績顯著的優(yōu)于前測成績,則說明所測內(nèi)容正是被試新近所學(xué)內(nèi)容。62(2)統(tǒng)計分析法62(3)經(jīng)驗法這種效度是通過實踐來檢驗效度,如兒童發(fā)展量表是否有效,經(jīng)過對不同年齡階段的兒童進(jìn)行調(diào)查,然后分析其結(jié)果。63(3)經(jīng)驗法634、注意:內(nèi)容效度的特性(1)內(nèi)容效度與所有效度的性質(zhì)一樣,不是普遍適用的,而是根據(jù)具體情況分析得來。(2)內(nèi)容效度適合于測驗所要測量的內(nèi)容總體能夠明確界定的情況。因此尤其適合對教育測驗的效度的考察。內(nèi)容效度對各種用于人員選拔和安置的職業(yè)測驗也是適用的。職業(yè)測驗關(guān)心的是被試是否具有從事某項職業(yè)的知識、技能等,那么要明確某項職業(yè)所需的全部知識和技能,再對這些知識和技能進(jìn)行取樣,取出一個有代表性的樣本。644、注意:內(nèi)容效度的特性64(3)內(nèi)容效度對能力傾向測驗和人格測驗不是很合適,因為它們要測量的往往是較抽象的特質(zhì),其范圍難以明確界定,沒有明確的內(nèi)容范圍,就無法考證測驗項目是否具有代表性。(4)缺點(diǎn):缺乏理想的數(shù)量指標(biāo),因而妨礙了信息交流和各測驗的相互比較。65(3)內(nèi)容效度對能力傾向測驗和人格測驗不是很合適,因為它們要5、內(nèi)容效度與表面效度(1)內(nèi)容效度經(jīng)常與表面效度(facevalidity)混淆。表面效度是由外行對測驗作表面上的檢查確定的,它不反映測驗實際測量的東西,只是指測驗表面上看來好像是測量所要測的東西;而內(nèi)容效度是由夠資格的判斷者(專家)詳盡地、系統(tǒng)地對測驗作評價而建立的。665、內(nèi)容效度與表面效度66(2)測驗對表面效度的考慮:表面效度不是效度的客觀指標(biāo),不能保證測驗的正確性,但能對受測者的動機(jī)產(chǎn)生影響,因而也會影響到測驗的效度。如:“我偷過東西?!本幹茰y驗時應(yīng)根據(jù)編制測驗的要求提高或降低表面效度,如人格測驗,表面效度應(yīng)該低,使被試看不出來,從而讓被試作出真實的反應(yīng),能力測驗應(yīng)該提高表面效度,以激發(fā)被試的答題動機(jī)。67(2)測驗對表面效度的考慮:67(二)構(gòu)想效度(結(jié)構(gòu)效度)1、定義:構(gòu)想效度(constructvalidity),又稱構(gòu)念效度、結(jié)構(gòu)效度。構(gòu)想:心理學(xué)理論中所涉及的假設(shè)性的概念或特質(zhì),如智力、焦慮等,它們往往用某種操作定義來定義、可以用測驗來測量。構(gòu)想效度是指測驗分?jǐn)?shù)能夠說明某一理論概念或特質(zhì)的程度。也就是測驗是否實際測量了所欲測量的理論概念或特質(zhì)??疾鞓?gòu)想效度的宗旨是要回答下面一些問題:一個測驗測量的是什么心理構(gòu)想?對這個構(gòu)想測得有多好?測驗分?jǐn)?shù)中有多少變異數(shù)是來自測驗所欲測量的構(gòu)想。68(二)構(gòu)想效度(結(jié)構(gòu)效度)682、實際操作步驟:(1)先從某一建構(gòu)的理論開始(2)提出各項心理功能或行為的基本假設(shè)(3)據(jù)以設(shè)計和編制測驗問卷(4)以相關(guān)分析、因素分析等方法來檢測結(jié)果是否符合理論之見解692、實際操作步驟:693、計算結(jié)構(gòu)效度的方法(1)測驗內(nèi)方法測驗的內(nèi)容效度內(nèi)容效度可以作為檢驗結(jié)構(gòu)效度的一個方面。分析被試解答測題時的反應(yīng)過程在施行個別測驗時,要求被試邊想邊說,從而可以分析被試解題時的心理過程,以核實測驗是否真正測到了所要測量的心理構(gòu)想。如,人格測驗中有這樣一個題目:“我喜歡在別人面前說另一個人的缺點(diǎn)。”一個被試回答“否”,問他是怎么考慮的,他說:“一個人如果喜歡在別人面前說另一個人的缺點(diǎn),那他就是個小人。703、計算結(jié)構(gòu)效度的方法70考察測驗的同質(zhì)性這種方法是以測驗的內(nèi)在一致性系數(shù)(如K-R20,K-R21,以及
系數(shù)等)為指標(biāo),判斷測驗測的是單一特質(zhì)還是多種特質(zhì),從而確定測驗構(gòu)想效度的高低。(2)測驗間方法相容效度(congruentvalidity)計算受測者在新測驗上的分?jǐn)?shù)與原有的已知效度較高的同類測驗上的分?jǐn)?shù)之間的相關(guān)。如,斯坦福-比奈量表和韋氏量表是公認(rèn)的效度較高的智力量表,后人編制的智力測驗常計算與這些量表的測驗分?jǐn)?shù)的相關(guān),以提供相容效度的證據(jù)。71考察測驗的同質(zhì)性71區(qū)分效度(discriminantvalidity)一個有效的測驗不僅應(yīng)與其他測同一構(gòu)想的測驗有關(guān),而且還必須與測量不同構(gòu)想的測驗無關(guān)。用此種方法確定的效度稱區(qū)分效度。低相關(guān):可以證明新測驗相對獨(dú)立于某些無關(guān)因素,但并不保證它一定有效。高相關(guān):這個測驗的效度是可疑的。因素效度(factorialvalidity):通過對一組測驗進(jìn)行因素分析,找到影響測驗分?jǐn)?shù)的共同因素,每個測驗在共同因素上的負(fù)荷量,即每個測驗與共同因素的相關(guān),稱作測驗的因素效度。72區(qū)分效度(discriminantvalidity)72(3)效標(biāo)關(guān)聯(lián)法測驗分?jǐn)?shù)與效標(biāo)行為的一致性有助于證明測驗確實測量了某種構(gòu)想。根據(jù)效標(biāo)選取不同的被試,組成對照組,然后比較兩組被試的測驗成績,看測驗分?jǐn)?shù)能否將它們區(qū)分開來。如:兩組被試,神經(jīng)癥被試和正常人測驗對效標(biāo)的預(yù)測能力,也可以提供構(gòu)想效度的證據(jù)。73(3)效標(biāo)關(guān)聯(lián)法73(4)實驗操作法通過控制某些實驗條件,觀察其對測驗分?jǐn)?shù)的影響,也可以獲得構(gòu)想效度的證據(jù)。如,舉行兩場考試,使被試相信一場考試關(guān)系重大,另一場考試無關(guān)緊要,在考試前進(jìn)行焦慮測驗,看被試的焦慮測驗分?jǐn)?shù)是否存在顯著的差異,分析原因。74(4)實驗操作法744、對構(gòu)想效度的評價構(gòu)想效度的主要缺點(diǎn)是:(1)有些構(gòu)想概念模糊,缺乏一致的定義。(2)確定效度時沒有明確的操作步驟和程序。(3)構(gòu)想效度是通過對測驗測量了什么、沒有測量什么的證據(jù)加以累積的,沒有單一的數(shù)量指標(biāo)來描述有效的程度。比如,效度等于多少,證明效度高,等于多少,證明效度低。754、對構(gòu)想效度的評價75(三)實證效度(效標(biāo)效度)1、定義:什么是效標(biāo)效度實證效度是指一個測驗對處于特定情境中的個體的行為進(jìn)行評估的有效性。也就是說,一個測驗是否有效,應(yīng)該以實踐的效果來作為檢驗標(biāo)準(zhǔn)被預(yù)測的行為是檢驗測驗效度的標(biāo)準(zhǔn),簡稱效標(biāo)。效標(biāo)有兩個特點(diǎn):效標(biāo)獨(dú)立于測驗的結(jié)果,即效標(biāo)和測驗分?jǐn)?shù)兩者是獨(dú)立評定的。效標(biāo)反應(yīng)測驗的目的。76(三)實證效度(效標(biāo)效度)76在檢驗一個測驗的效標(biāo)效度時,難點(diǎn)在于找到合適的效標(biāo)。因此效標(biāo)的選擇至關(guān)重要,一個好的效標(biāo)必須具備以下條件:①效標(biāo)必須能最有效地反映測驗的目標(biāo),即效標(biāo)測量本身必須有效;②效標(biāo)必須具有較高的信度,穩(wěn)定可靠,不隨時間等因素而變化;③效標(biāo)可以客觀地加以測量,可用數(shù)據(jù)或等級來表示;④效標(biāo)測量的方法簡單,省時省力,經(jīng)濟(jì)實用。77在檢驗一個測驗的效標(biāo)效度時,難點(diǎn)在于找到合適的效標(biāo)。因此效標(biāo)例如:高三模擬考試,果然能恰當(dāng)?shù)胤磻?yīng)大學(xué)聯(lián)考成績,說明此模擬測驗效度﹝預(yù)測效度﹞好。用高考成績預(yù)測大學(xué)生的學(xué)習(xí)能力和成就用職業(yè)測驗預(yù)測工作能力用人格測驗預(yù)測哪種人容易得精神病等。用智力測驗來預(yù)測其最近的學(xué)業(yè)成績78例如:782、種類:同時效度:測驗分?jǐn)?shù)與效標(biāo)同時驗證例如:智力測驗以學(xué)生當(dāng)時的學(xué)業(yè)成績?yōu)樾?biāo);預(yù)測效度:測驗分?jǐn)?shù)與將來的效標(biāo)資料進(jìn)行驗證
例如:測量健康行為對未來健康狀態(tài)預(yù)測之有效程度;兩者的差異,源自測驗?zāi)康?。前者與用來診斷現(xiàn)狀的測驗有關(guān),后者與預(yù)測將來結(jié)果的測驗有關(guān)。792、種類:793、效標(biāo)效度的確立方法確定一種恰當(dāng)?shù)男?biāo)行為及其測量方法;確定一個能代表測驗最終使用對象的適合的受測者樣本;施測并記錄每個受測者的得分;得到效標(biāo)資料,對每個受測者在該效標(biāo)上的操作進(jìn)行測量;確定測驗分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)的相關(guān)程度。803、效標(biāo)效度的確立方法804、效標(biāo)效度的確定方法相關(guān)法被試12345678910測驗(x)20343247202427252216銷售額(y)2.53.8340.712.23.52.81.2814、效標(biāo)效度的確定方法被試1234567891區(qū)分法被試接受測驗后,讓他們工作一段時間,再根據(jù)工作成績的好壞來分成兩組。這是再回頭來分析兩組被試原先接受測驗的分?jǐn)?shù)差異情況。若差異顯著,則說明該測驗有較高的效度。效標(biāo)成績測驗預(yù)測失敗成功成功(A)失誤(B)命中失敗(C)命中(D)失誤82區(qū)分法效標(biāo)成績成功(A)失誤(8383四、效度的功能1、預(yù)測誤差:決定系數(shù),標(biāo)準(zhǔn)誤效度系數(shù)的實際意義常常以決定性系數(shù)來表示,意指相關(guān)系數(shù)的平方,它表示測驗正確預(yù)測或解釋的效標(biāo)的方差占總方差的比例。另一種表達(dá)方法是估計的標(biāo)準(zhǔn)誤,估計的標(biāo)準(zhǔn)誤可如同其他標(biāo)準(zhǔn)誤一樣解釋。2、預(yù)測效標(biāo)分?jǐn)?shù)如果X與Y兩變量呈直線相關(guān),只要確定出二者間的回歸方程,就可以從一個變量推估出另一個變量。84四、效度的功能84五、影響效度的因素1、測驗本身的因素測驗取材的代表性、測驗長度、試題類型、難度、區(qū)分度以及編排方式等都會影響效度。要保證測驗具有較高效度,要做好以下幾點(diǎn):測驗材料必須對整個內(nèi)容具有代表性;測題設(shè)計時應(yīng)盡量避免容易引起誤差的題型(如是非題);測題難度要適中,具有較高的區(qū)分度;測驗長度要恰當(dāng),即要有一定的測題量;測題的排列按先易后難順序。85五、影響效度的因素85測驗的長度對提升測驗效度的影響測驗的長度會影響測驗的信度,同時也會影響測驗的效度。測驗長度與效度的關(guān)系可以用下式表示:(公式6-3)式中是測驗增長為原來的n倍的效度值,n為測驗的增長倍數(shù),為原測驗效度,為原測驗信度。
8686例:一測驗的信度系數(shù)為0.50,效度系數(shù)為0.40,現(xiàn)想其效度增長為0.50,問測驗的長度應(yīng)增長為原來的幾倍?87例:一測驗的信度系數(shù)為0.50,效度系數(shù)為0.40,現(xiàn)想其效2、測驗實施中的干擾因素主試的影響因素測驗實施過程中主試的因素會影響效度。例如,是否遵從測驗使用手冊的各項規(guī)定進(jìn)行標(biāo)準(zhǔn)化的實施,指導(dǎo)語是否統(tǒng)一正確,測驗的時限是否一致,評分是否合理,都會影響測驗的效度。被試的影響因素被試在測驗時的興趣、動機(jī)、情緒、態(tài)度和身心狀況、健康狀態(tài)以及是否充分合作與盡力而為等,都會影響被試在測驗情境中的反應(yīng),因而影響測驗結(jié)果的效度。被試的反應(yīng)定勢也會降低測驗的效度。882、測驗實施中的干擾因素883、樣本團(tuán)體的性質(zhì)樣本團(tuán)體的異質(zhì)性如果其他條件相同,樣本團(tuán)體越同質(zhì),分?jǐn)?shù)分布范圍越小,測驗效度就越低;樣本團(tuán)體越異質(zhì),分?jǐn)?shù)分布范圍越大,測驗效度就越高。其中有幾種情況會影響樣本團(tuán)體的異質(zhì)性。選拔標(biāo)準(zhǔn)太高,樣本團(tuán)體的同質(zhì)性增加,降低了測驗的效度。893、樣本團(tuán)體的性質(zhì)89干涉變量樣本團(tuán)體的性質(zhì)對效度的影響還表現(xiàn)在:對于不同性質(zhì)的團(tuán)體,同一測驗的效度會有很大的不同。這些性質(zhì)包括年齡、性別、教育水平、智力、動機(jī)、興趣、職業(yè)和任何有關(guān)的特征。由于這些特征的影響,使得測驗對于不同的團(tuán)體具有不同的預(yù)測能力,故測量學(xué)上稱這些特征為干涉變量(moderatorvariable)。90干涉變量90對于如何確定干涉變量,表面上的泛泛分析和觀察很難發(fā)現(xiàn),美國心理學(xué)家吉賽利(E.E.Ghiselli)提出的如何找出干涉變量的一套方法,供參考:用回歸方程求得每個人的預(yù)測效標(biāo)分?jǐn)?shù),將該分?jǐn)?shù)與實際效標(biāo)分?jǐn)?shù)相比較,獲得差異分?jǐn)?shù)D。如果D的絕對值很大,說明測驗中可能存在干涉變量。根據(jù)樣本團(tuán)體的組成分析,找出對照組,分別計算效度,找出干涉變量。對于欲測團(tuán)體,根據(jù)某些易見的干涉變量將其區(qū)分為預(yù)測性高和預(yù)測性低的兩個亞團(tuán)體。對于預(yù)測性高的團(tuán)體,獲得的測驗效度會有所提高。91對于如何確定干涉變量,表面上的泛泛分析和觀察很難發(fā)現(xiàn),美國心4、效標(biāo)的性質(zhì)效標(biāo)效度是以測驗分?jǐn)?shù)與效標(biāo)測量的相關(guān)系數(shù)來表示的,因此效標(biāo)的性質(zhì)如何,在評價測驗的效度時是值得考慮的。924、效標(biāo)的性質(zhì)92六、提高效度的方法1、精心的編制測驗,避免出現(xiàn)較大的系統(tǒng)誤差。2、妥善組織測驗,控制隨機(jī)誤差。3、創(chuàng)設(shè)標(biāo)準(zhǔn)的應(yīng)試情境,讓每一個被試都能整茶館南的發(fā)揮自己的水平。4、選好正確的效標(biāo),正確的使用有關(guān)公式。93六、提高效度的方法93七、效度和信度的關(guān)系X=T+E
94七、效度和信度的關(guān)系X=T+E94信度與效度的關(guān)系1.信度是效度的必要而非充分條件根據(jù)公式,可以用圖6-1來表示信度和效度的關(guān)系。Sx2
Sv2SI2SE2
ST2圖6-1信度和效度的關(guān)系從圖6-1可以看出,當(dāng)隨機(jī)誤差的變異數(shù)減小時,真實分?jǐn)?shù)的變異數(shù)增加,測驗信度隨之提高。信度的提高只給有效變異數(shù)的增加提供了可能。至于是否能提高效度,還要看系統(tǒng)誤差的變異數(shù)的大小??梢姡哦雀卟灰欢ㄐФ雀?。但一個測驗要想效度高,真分?jǐn)?shù)的變異數(shù)必須占較大的比重,即測驗的信度必須高。因此,信度高是效度高的必要但非充分條件。SV2SI2SE295信度與效度的關(guān)系SV2SI2SE2952.效度受信度的制約,信度系數(shù)規(guī)定了效度系數(shù)的上限。根據(jù)信度和效度的定義()可以得到:
962.效度受信度的制約,信度系數(shù)規(guī)定了效度系數(shù)的上限。96信度與效度的關(guān)系:有效的測驗,必須是可信的測驗;但可信的測驗,則未必是有效的測驗(效度高是測驗之終極目標(biāo))*信度低→→效度必低*信度高→→效度未必高
*效度低→→信度未必低*效度高→→信度必高97信度與效度的關(guān)系:97第三節(jié)信效度的spss實現(xiàn)一、信度量表信度的考驗方法為Cronbachα係數(shù),判定α係數(shù)之準(zhǔn)則如下:所有問卷題目一起執(zhí)行計算Cronbachα係數(shù)。每個因素構(gòu)面針對其所屬問卷題目,執(zhí)行計算Cronbachα係數(shù)。範(fàn)例一98第三節(jié)信效度的spss實現(xiàn)一、信度98某研究設(shè)計一份有關(guān)“商店服務(wù)屬性”之問卷初稿,為慎重起見,選取30位受測者進(jìn)行前測(結(jié)果如資料檔:服務(wù)屬性前測.sav)。請問這些題項在測試結(jié)果後,是否具備內(nèi)部一致性?1.點(diǎn)選Analyze/scale/reliabilityanalysis2.程式操作3.分析結(jié)果99某研究設(shè)計一份有關(guān)“商店服務(wù)屬性”之問卷初稿,為慎重起見,選範(fàn)例一2.程式操作100範(fàn)例一2.程式操作100分析結(jié)果101分析結(jié)果101分析結(jié)果α係數(shù)=0.7984,代表十五道題目測量結(jié)果之內(nèi)部一致性具高可信度。若是想要再提高信度,可由”CorrectedItem-Totalcorrelation”及”CronbachAlphaifitemDeleted”兩欄數(shù)字來判斷刪除那些題目可提高內(nèi)部一致性,價格的”CorrectedItem-Totalcorrelation”數(shù)字-0.0693表示「價格」與總分間的相關(guān)非常的低,如果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國中性紙市場調(diào)查研究報告
- 2025年中國三級過濾精密濾油機(jī)市場調(diào)查研究報告
- 2025年中國PVC卡套市場調(diào)查研究報告
- 2025年中國925純銀珍珠耳鉤市場調(diào)查研究報告
- 音樂理論學(xué)習(xí)方法指導(dǎo)題及答案
- 2025電子產(chǎn)品買賣的合同模板
- 2025版權(quán)協(xié)議 自費(fèi)出版合同
- 《建筑行業(yè)概述》課件
- 應(yīng)付及預(yù)收款項教學(xué)課件
- 《網(wǎng)絡(luò)技術(shù)課件》課件
- 交通疏解方案完整版
- 中考物理模擬試卷講評課課件
- DB32T 3921-2020 居住建筑浮筑樓板保溫隔聲工程技術(shù)規(guī)程
- 跨越架施工方案
- 流動團(tuán)員管理服務(wù)告知書
- 人民幣全版(錢幣)教學(xué)打印版word版
- Excel在財務(wù)管理中的應(yīng)用(第五版)第10章綜合案例
- 高考理綜試題答題技巧方法!課件
- 購物中心租金修正測算
- 行書典范《蘭亭序》鑒賞PPT共32頁課件
- 一體化泵站檢測報告(共6頁)
評論
0/150
提交評論