【摘 要】期末考試的分?jǐn)?shù)線劃分對學(xué)生的影響甚大。分?jǐn)?shù)線的劃分合理、可靠與否取決于可靠性指數(shù)和平均分兩個(gè)因素。本文通過比較Cronbach Alpha系數(shù),ICC系數(shù)以及可靠性系數(shù)之間的異同,認(rèn)為要保證分?jǐn)?shù)線劃分的公正性,考試結(jié)果的可靠性指數(shù)必須達(dá)到0.8以上,同時(shí)分?jǐn)?shù)線必須小于或者高于平均分,分?jǐn)?shù)線與平均分的距離不超過一個(gè)標(biāo)準(zhǔn)差。

【關(guān)鍵詞】標(biāo)準(zhǔn)參照考試 Cronbach Alpha系數(shù) 可靠性指數(shù) ICC系數(shù) 分?jǐn)?shù)線

期末考試是檢查每個(gè)學(xué)生對于所學(xué)內(nèi)容掌握的具體情況,考試的內(nèi)容可以按照教學(xué)大綱或者整個(gè)英語學(xué)習(xí)階段的學(xué)習(xí)目標(biāo)來制訂(Hughes,1989;Bachman,1990)。期末考試不是關(guān)注每個(gè)學(xué)生在班上的排名,而是關(guān)注每個(gè)學(xué)生對于所學(xué)內(nèi)容掌握的程度,因此,我們不能用常模參照考試方法來衡量考試結(jié)果,而必須使用標(biāo)準(zhǔn)參照考試來制訂詳細(xì)的成績報(bào)表,以診斷考生的問題所在(Brown and Hudson,2002;Brown,2005)。

從考試用途的廣義來講,期末考試在很大程度上決定考生的未來,因此,考試使用的公正性問題就顯得相當(dāng)重要,教師們不得不慎重考慮期末考試的效度問題。考試的效度不僅僅指考試分?jǐn)?shù)的可靠性,還指考試使用所產(chǎn)生的各種影響(Messick,1989)。如果學(xué)校的期末考試不算是一種大型的考試,那么就不會(huì)有考生期末作弊的現(xiàn)象出現(xiàn)。作為大學(xué)英語教師,我們必須高度重視考試設(shè)計(jì)、施測、評分、分?jǐn)?shù)解釋、決策等各個(gè)環(huán)節(jié),同時(shí)考慮考試對考生產(chǎn)生的影響。但是目前我們對于期末考試使用的研究還相當(dāng)?shù)牟恢匾暋?/p>

期末考試的效度

期末考試不是常模參照性考試,所以常模參照性考試的信度分析方法(試卷的內(nèi)部關(guān)系)不完全適用于期末考試。我們不可能反復(fù)考試,也不可能采用分半計(jì)算(如作文考試怎么分半?)。對于作文考試,我們最好的就是采用多重評分(無論是分析法還是綜合法)。目前的許多實(shí)踐都是采用α系數(shù),它是一種折中辦法,沒有確定系數(shù)上下限的大小。如果是三個(gè)人對所有考生的作文分別評分,最后的結(jié)果就是三位教師評分信度估計(jì)的折中系數(shù)。其實(shí)SPSS信度計(jì)算中有組間相關(guān)系數(shù)(ICC),它可以確定一個(gè)評分者的信度大小和三個(gè)人平均的信度系數(shù)大小。一般線性模型也可以確定每一個(gè)評分者的一致性問題,還可以兩兩比較。但是,如果三個(gè)教師評閱所有學(xué)生的作文,計(jì)算出來的信度還是比較低怎么辦?傳統(tǒng)的辦法沒法告訴我們增加多少個(gè)教師才可以達(dá)到較為理想的信度大小,也不可能告訴我們評分者所產(chǎn)生的誤差大小是否可以接受。因此,我們需要借助概化理論來實(shí)現(xiàn)(Shavelson and Webb,1991)。概化理論在作文考試的應(yīng)用在國外已經(jīng)相當(dāng)普遍(如Schoonen,2005),而在國內(nèi)多數(shù)都是運(yùn)用于英語教學(xué)以外的學(xué)科。

我們除了確??荚囋O(shè)計(jì)、開發(fā)、施測和試卷評閱等過程的一致性外,期末考試還需考慮分?jǐn)?shù)線的劃分,正確地劃分“過關(guān)”與“不過關(guān)”的學(xué)生,同時(shí)要針對分?jǐn)?shù)線對學(xué)生產(chǎn)生的影響進(jìn)行研究。只有這樣我們才可以保證我們的考試使用是公正合理的,也就是說我們需要確定在多大程度上我們的劃分是可靠的,多大程度上我們的劃分是因?yàn)榭荚嚤旧淼囊蛩兀皇桥既灰蛩卦斐傻慕Y(jié)果(Brown and Hudson, 2002)。本文試圖比較Cronbach Alpha系數(shù)、ICC系數(shù)以及可靠性系數(shù)之間的異同,確定分?jǐn)?shù)線劃分的條件。

實(shí)例

本文主要談?wù)撈谀┛荚嚨男哦葐栴},所以主要關(guān)注如何通過組內(nèi)相關(guān)計(jì)算考試信度,如何通過概化理論來細(xì)化誤差大小,如何計(jì)算分?jǐn)?shù)線所產(chǎn)生的門檻闕失值的大小(Po,threshold-loss agreement)對學(xué)生的影響,從而最大限度降低決策錯(cuò)誤給考生帶來的不利后果。對于概化理論的詳細(xì)闡述和公式,讀者可以參閱Shavelson and Webb(1991),以及楊志明和張雷(2003)的《測評的概化理論及其應(yīng)用》。本文主要講解如何通過SPSS來實(shí)現(xiàn)概化理論的應(yīng)用,解決期末考試分?jǐn)?shù)線劃分的問題,以便廣大教師實(shí)踐操作。本文采用的作文考試數(shù)據(jù)來源于Brown(2005:186),55個(gè)學(xué)生參加了總分為100分的作文考試,然后由3位閱卷教師分別獨(dú)立對所有學(xué)生的作文進(jìn)行評閱。首先我們需要用SPSS和概化理論來分析本次考試分?jǐn)?shù)的信度、ICC系數(shù)和各個(gè)因素的方差大小,以確定評分者誤差是否可以接受。然后根據(jù)Brown和Hudson(2002)提供的公式來計(jì)算Po值和Kappa值的大小,從而確定分?jǐn)?shù)線劃分可靠性比例,然后在此基礎(chǔ)上探討不同分?jǐn)?shù)線的決策信度。

1.α系數(shù)和組間系數(shù)ICC

首先打開SPSS,在變量視窗里建立變量,然后切換到數(shù)據(jù)視窗,分別輸入所有的數(shù)據(jù),并保存。仔細(xì)檢查,確保無一遺漏或者輸錯(cuò)。找到分析工具(Analyze)欄下拉菜單(scale)中的信度分析(reliability analysis)工具。將評分者變量選入到右邊的方框里,點(diǎn)擊(Statistics)統(tǒng)計(jì)按鈕選擇要輸出的統(tǒng)計(jì)結(jié)果。點(diǎn)擊按鈕(Continue),返回信度分析框,按OK鍵,系統(tǒng)自動(dòng)生成我們需要的結(jié)果。下面分析解釋輸入結(jié)果的含義。

圖1 標(biāo)準(zhǔn)化Cronbach Alpha系數(shù)

標(biāo)準(zhǔn)Cronbach Alpha系數(shù)是信度系數(shù)的折中,由圖1可以看出三位評分者所得出的信度系數(shù)為0.831。

圖2 評分者相關(guān)系數(shù)

圖2評分者相關(guān)系數(shù)實(shí)際上并不高,相關(guān)系數(shù)介于0.571—0.662之間。

圖3 評分者獨(dú)立性檢驗(yàn)

圖3可以看出,三個(gè)評分者是獨(dú)立評分的,交互效應(yīng)不明顯 (殘差值residual不顯著)。作文考試的平均分為70分。

圖4 組間相關(guān)系數(shù)(ICC)

組間相關(guān)系數(shù)(Interclass Correlation Coefficient)表明,如果只有一位教師評閱所有試卷,那么ICC=0.622,95%的置信區(qū)間為0.482—0.736;若是三位教師評分的話,ICC=0.831,95%的置信區(qū)間為0.736—0.896。也就是說ICC可以更加具體地刻畫信度系數(shù)的波動(dòng)。

2.方差分量和可靠性系數(shù)

我們現(xiàn)在檢查評分者誤差的大小到底是否可以接受,進(jìn)行概化理論G研究和D研究。采用同樣的數(shù)據(jù),選擇一般線性模型的重復(fù)測量方法(repeated measures)來檢查評分者的方差分量。定義重復(fù)測量的變量(Within-Subject Factor name) 為rater,重復(fù)測量的次數(shù)(Number of levels) 為3次,點(diǎn)擊添加(Add)按鈕。然后點(diǎn)擊(Define)按鈕,分別定義變量和因素,選擇模型按鈕(Model)定義自定義模型(Custom)點(diǎn)擊(Continue)按鈕返回重復(fù)測量對話框(Repeated Measures),點(diǎn)擊(Options)按鈕,將左邊的因素移入右邊,以呈現(xiàn)所需的平均數(shù)。點(diǎn)擊(Continue)按鈕,返回,再點(diǎn)擊Ok按鈕,生成數(shù)據(jù)。從(Tests Within-Subjects Effects)和(Tests Between-Subjects Effects)提取我們所需的數(shù)據(jù),如圖5所示,平均分為70分,95%置信區(qū)間,平均分范圍為65—75分之間。

圖5 平均分范圍

圖6 評分者內(nèi)部一致性和評分者間差異比較

可以看出在95%的置信區(qū)間內(nèi),第一位評分者的評分在評閱所有考生的作文時(shí),其尺度是相當(dāng)一致的,標(biāo)準(zhǔn)誤差為零。第二位和第三位評分者的內(nèi)部一致性就差遠(yuǎn)了,而且95%的置信區(qū)間內(nèi),所有學(xué)生的平均分波動(dòng)很大。

圖7 方差變異來源、類型以及均方差

根據(jù)公式,計(jì)算各個(gè)因素的方差分量大?。?/p>

圖8 方差分量

評分者方差分量為1.4477,再考察其yardstick值,即方差分量之平方根■,yardstick=1.2032。即是說,大約有95%的概率水平評分波動(dòng)在±2■,即±2.4064之間。很顯然,與作文總分100分相比,此波動(dòng)較小,是可以接受的。

絕對誤差:

評分者誤差遠(yuǎn)遠(yuǎn)小于絕對誤差,只有絕對誤差的九分之一。

可靠性指數(shù):

=63.3066/(63.3066+12.9295) = 0.8304

將可靠性指數(shù)開方后的大小為0.9112,這表明由三位教師評閱的學(xué)生作文成績的實(shí)得分?jǐn)?shù)與學(xué)生的真實(shí)表現(xiàn)之間的相關(guān)為0.9112,也就是說3個(gè)評分者對學(xué)生的作文評定較為準(zhǔn)確。如果可靠性指數(shù)要達(dá)到0.9的話,則需要6位教師分別評閱所有的試卷。在實(shí)際中,條件所限,不太可能。

但是,如果只有一個(gè)教師評閱的話,可靠性指數(shù)就只有0.62(表明由三位教師評閱的學(xué)生作文成績的實(shí)得分?jǐn)?shù)與學(xué)生的真實(shí)表現(xiàn)之間的相關(guān)為0.7874),這樣通過概化理論計(jì)算得出的一位評卷教師閱卷,作文的可靠性指數(shù)和組間相關(guān)(Interclass Correlation)ICC系數(shù)是一致的。而三個(gè)評卷教師所得出的可靠性指數(shù)高于ICC系數(shù),而更加接近95%置信區(qū)間ICC系數(shù)的上限(0.896)。這說明,概化理論所刻畫的信度比ICC系數(shù)、Cronbach Alpha系數(shù)更加準(zhǔn)確。

3.分?jǐn)?shù)線的決策信度

現(xiàn)在我們需要分析分?jǐn)?shù)線所產(chǎn)生的影響,決定分?jǐn)?shù)線的可靠性大小。由SPSS得知平均分為70.1455分,我們就以70.1455的分?jǐn)?shù)線來判斷門檻闕值(Threshold-loss agreement)的大小以決定70.1455分是否合適。Brown(2002:173)建議,如果期末考試只考一次,那么可以通過以下公式來計(jì)算:

其中Z表示標(biāo)準(zhǔn)分?jǐn)?shù)線的值,C表示分?jǐn)?shù)線的原始分,M為平均分,S為標(biāo)準(zhǔn)差,0.5為調(diào)節(jié)因子常數(shù)。

考生的最后得分為三位評分者分?jǐn)?shù)的平均分,通過SPSS計(jì)算得出標(biāo)準(zhǔn)差S=8.6495,所以:Z = (70.1455-0.5-70.1455)/8.6495=0,查表(Brown和Hudson,2002:174—175),當(dāng)Z=0,可靠性指數(shù)=0.8763(或者ICC= Cronbach Alpha=0.831)時(shí), 0.8 0.86,0.59 0.71。這表示以70.1455分作為過關(guān)與不過關(guān)的分?jǐn)?shù)線,那么80%-86%的學(xué)生準(zhǔn)確地被劃為過關(guān)者和不過關(guān)者,而且這當(dāng)中至少59%-71%的劃分不是偶然的,是由作文考試決定的。如果可靠性指數(shù)要達(dá)到0.9以上,則需要6位評分者(實(shí)際操作中很難,6位閱卷者太費(fèi)時(shí)費(fèi)力)。由表格得知,可靠性指數(shù)的增加,可以提高分?jǐn)?shù)線的可靠性。我們進(jìn)一步推斷,要保證59%以上的劃分不是隨機(jī)的 (即Kappa>0.59),可靠性指數(shù)必須達(dá)到0.8以上(?準(zhǔn)≧0.8)。

但是分?jǐn)?shù)線的決策信度到底如何呢?我們需要兩個(gè)公式來計(jì)算,最后根據(jù)實(shí)際情況決定劃分什么線。概化理論提供了兩種公式 (Brown and Hudson, 2002; Brown, 2005),當(dāng)采用0,1記法,公式如下:

(公式1)

其中,?姿為以百分比計(jì)算的分?jǐn)?shù)線,k為考試的題目數(shù),MP為百分比分?jǐn)?shù)的平均分,SP為百分比分?jǐn)?shù)的標(biāo)準(zhǔn)差。其他情況下采用下面的公式(楊志明,張雷,2003):

(公式2)

其中:?準(zhǔn)(?姿)是phi (lambda)估計(jì),?姿為分?jǐn)?shù)線,?滓p2為被試(考生)的方差分量估計(jì)值,?滓r2為評分者方差分量估計(jì)值,?滓pr2為被試和評分者的交互效應(yīng)估計(jì)值,XPR為全域分平均值,nr為評分者數(shù)?,F(xiàn)在我們根據(jù)第二個(gè)公式來計(jì)算分?jǐn)?shù)線70.1445的決策信度。

?準(zhǔn)(70)的決策信度為0.8304,這表示70分的分?jǐn)?shù)線,其決策的可靠性為83%。當(dāng)然不同的分?jǐn)?shù)線,決策信度是不一樣的。一般來講,當(dāng)分?jǐn)?shù)線遠(yuǎn)離平均分時(shí),決策信度最高(Bachman,1990;Brown,2002)。當(dāng)分?jǐn)?shù)線與樣本平均分相等時(shí)(見表1),決策信度最低,即這時(shí)最有可能把學(xué)生歸入到錯(cuò)誤的類別中去。本次作文考試的最低決策信度在0.8304以上,所以可以認(rèn)為這次作文考試的質(zhì)量較高。

結(jié)論

只有可靠性指數(shù)達(dá)到0.8以上,分?jǐn)?shù)線劃分的公正線才得到起碼的保證。在此基礎(chǔ)上可以看出,本次作文的標(biāo)準(zhǔn)差為8.6495,那么在一個(gè)標(biāo)準(zhǔn)差內(nèi)的分?jǐn)?shù)線的可靠性較高,但是不能接近平均分。也就是說,本次作文課程需要重修的考生分?jǐn)?shù)在M-1S前后,即62分以下的學(xué)生至少需要重修。當(dāng)然,可以根據(jù)實(shí)際情況制訂比如64的分?jǐn)?shù)線,但前提是保證較高的決策信度。

參考文獻(xiàn):

[1]Bachman,Lyle F.Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.

[2]Brown,James Dean.Testing in language programs:a comprehensive guide to English language assessment[M].McGraw-Hill Companies, Inc.,2005.

[3]Brown,James Dean.& Thom Hudson.Criterion-referenced language testing[M].Cambridge:Cambridge University Press,2002.

[4]Hughes,Arthur.Testing for language teachers[M].Cambridge:Cambridge University Press,1989.

[5]Kunnan, A. J. (ed.). Fairness and Validation in Language Assessment[C].Cambridge: CUP,2000.

[6]Messick,Samuel.Validity[A].In Robert L.Linn(ed.).Educational measurement(3rd ed.).London:Collier Macmillan Publishers,1989.

[7]Shavelson, Richard J.& N.M.Webb.Generalizability theory:a primer[M]. California:Sage Publications, Inc.,1991.

[8]Rob Schoonen.Generalizability of writing scores:an application of structural equation modeling the effect of these facets is estimated in a generalizability study using variance analytic techniques[J].Language Testing, 2005,22(1).

[9]楊志明,張雷.測評的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003.