「臺灣學生學習成就評量資料庫」測驗等化

| 張宛婷

【文 / 測驗及評量組專案助理 張宛婷】

為建置一完整且客觀的全國性學生學習成就資料庫,教育部於200410月核定本處進行臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement,簡稱TASA)之建置計畫,以瞭解學生在國語文、英語文、數學、自然、社會之學習成就。其中,在測驗題本的編製上,考量到測驗內容涵蓋廣泛與學生受測時間以40~50分鐘為主(受測學生為國小四年級、國小六年級、國中二年級、高中二年級與高職二年級)等因素,將題目編製成不同題本來進行施測,學生受測不同題本,而不同題本要相互比較必須藉由等化的技術。

測驗等化的目的在於比較不同測驗間的關係,它是用統計方法將兩個或兩個以上測量相同特質的測驗分數轉換到同一量尺上,使得測驗分數間可以客觀、有效地進行比較。而特別需要注意的是,測驗等化主要在調整測驗的難度,而非測驗本身內容的差異(Kolen & Brennan, 1995),唯有相同特質之測驗才能進行等化;舉例來說,雖然同一群學生受測了國語文與數學兩種科目,但是並不能將國語文與數學作等化比較。

依據不同測驗間難度或年級的差異,可以將等化分為水平等化(horizontal scaling)與垂直等化(vertical scaling)(Hambleton & Swaminathan, 1985Lissitz & Huynh, 2003)。水平等化指的是將測量相同特質、相同能力之測驗轉換到同一量尺的過程;而垂直等化指的是將測量相同特質、不同能力之測驗轉換到同一量尺的過程。如以學生年級為例,水平等化為同年級相同測驗不同題本間之等化,(Within-Grade Scaling)垂直等化為不同年級相同測驗不同題本間之等化(Across-Grade Scaling)(Lissitz & Huynh, 2003)。

TASA採取同一科目不同題本測驗設計即是使用了水平等化之技術將所有題本轉換到同一量尺上以進行比較。TASA主要目的為評估臺灣學生之整體表現,而非探討個別差異,在學生能力的估計上採取試題反應理論(Item Response Theory, IRT)中之三參數Logistic模式(three-parameter logistic model, 3PL)。並為了確保抽取的樣本具有全國代表性,在學生樣本的抽樣設計,國中小採取二階段隨機抽樣設計,高中職採取全國學校普測,學生部份進行抽測之抽樣設計。雖然TASA運用等化技術將所有學生轉換到相同量尺作為比較,但因為三參數Logistic模式與抽樣設計等技術的限制,若要直接以TASA施測結果來判定各縣市或是個人之表現,將會有較大誤差存在;因此,TASA施測結果並不適宜做縣市或是個人結果比較。

測驗理論分為古典測驗理論與現代測驗理論,而測驗等化同樣也有古典測驗之等化法與IRT等化法之分別。實務上可以針對不同測驗類型與測驗目的選擇適合的等化方式來進行等化。

 

【參考文獻】

Hambleton, R. K., & Swaminathan, H. (1985). Item Response Theory: Principles and Application. Boston, MA; Kivwer-Nijhoff.

Kolen, M. J. & Brennan, R. L. (1995). Test Equating: Methods and Practices. New York:Springer-Verlag.

Lissitz, Robert W. & Huynh Huynh (2003). Vertical equating for state assessments: issues and solutions in determination of adequate yearly progress and school accountability. Practical Assessment, Research & Evaluation, 8(10).