| 吳慧珉
【文 / 測驗及評量研究中心助理研究員 吳慧(王民)】
臺灣學生在2009年PISA測驗中,數學成績是543分。這543分是怎麼來的呢?國際大型測驗的評量目的常是要理解一個群體的知識或技能表現,如國人比較熟知的PISA,主要是評量一個國家15歲學生的數學素養、科學素養和閱讀素養。在TIMSS或PISA技術報告中,常可以見到將學生的分數以可能值(plausible value,簡稱PV)的方式呈現,這些國際大型測驗亦是提供PV給次級資料分析者。什麼是PV呢?次級資料分析者又該怎麼用它呢?國際大型測驗的測量內容非常廣泛,如TIMSS八年級數學科的評量架構包含數、代數、幾何、資料與機率,為了完整涵蓋評量架構,題目的數量很多,如要施測這麼多試題,對學生而言將是沈重的負擔,國際大型測驗透過特殊的題目安排方式,讓學生只需要施測部分的試題即可,如此一來將造成極大的測量誤差,不適合推論個別學生的能力,但卻可透過特殊的測驗統計模式,有效的推論群體的能力表現。PV就是透過此一特殊的測驗統計模式而得到的。PV是在估計學生的能力時,除了考慮學生的答題反應外,更加入了和學生相關的背景變項(如性別、學校的位置等),估計一位學生能力值的機率分佈,再從此分佈中隨機抽取學生的能力值,呈現學生「可能合理」的能力值範圍,如某一位學生的PV是495分、501分、504分、490分、510分,代表這五個分數都有可能是學生的分數,有些研究者會將這5個PV平均,代表每位學生的分數,或是隨機選一個PV代表某一位學生的分數,這些都是不適當的作法,如前所述,由於每位學生只被施測少量試題,以某一個PV或將PV平均代表學生的分數會造成較大的估計誤差,但PV很適合用來計算群體的統計量數。如PISA2009臺灣學生的數學成績,即是透過PV計算而得的。PISA的作法是每位學生是抽取5個PV,如PV1、PV2、…PV5,分別計算5次PV的統計量數再平均,舉例說明,如要知道臺灣學生的數學素養,應該計算第一個PV的平均分數,第二個PV的學生平均分數,到第五個PV的學生平均分數,再將這五個平均分數再平均,就可以得到上面的543分。國內的研究者對於PV的應用並不是很熟悉,如誤用PV可能會得到錯誤的推論,故宜小心謹慎的使用這些國際大型測驗所釋出的資料,如需要更詳細的PV使用方法,可參閱PISA 2003 Data Analysis Manual ,提供詳細的使用範例和SPSS程式巨集,可讓資料分析者正確使用PV。