TASA小四小六數學學習成就標準設定之省思-評量目的與表現層級標籤的選擇

| 林宜臻

【文 / 測驗及評量研究中心助理研究員 林宜臻】

本文將就「評量目的與表現層級標籤的選擇」,省思小四與小六臺灣學生學習成就評量資料庫(Taiwan Assessment of Student AchievementTASA)數學領域學習成就標準設定的妥適性,以為爾後國內類似之大型測驗評量執行標準設定之參考。

評量架構得以勾勒出測試內容與認知要求,平衡設計的要素。我國TASA與國際數學與科學教育成就趨勢調查(The Trends in International Mathematics and Science Study, TIMSS)的評量目的都是瞭解學校課程實施狀況,兩者皆屬於課程架構(curriculum framework),而美國教育進展評量(National Assessment of Educational Progress, NAEP)其主要回答的是哪些數學技能(mathematics skills)應該列入評量,而非回答哪些或如何進行數學教學。由於NAEP非屬課程架構,所以即便是學校課程重點的數學概念與技巧,NAEP並未將其納入其中(National Assessment Governing Board, 2008)。

表現層級標籤的設定,課程架構的TIMSS直接來自序位的前,以及後Olson, Martin, & Mullis, 2008),將表現層級標籤分成:頂標(advanced benchmark)、高標(high benchmark)、中標(intermediate benchmark)與低標(low benchmark)等四個能力區塊 (Olson, Martin, & Mullis, 2008)。而NAEP則是根據表現層級描述(performance level description, PLD),設定基礎、精熟、進階三個層級的決斷分數,將學生劃分為基礎以下、基礎、精熟及進階等四個能力區塊。我國TASA評量目的與TIMSS相同,而與NAEP不同,但採取NAEP方式設定表現層級,而評量架構未將複雜度納入其中,造成難度值與PLD的基礎、精熟、進階層級有不一致的現象。

由於試題設計方式未能與之匹配,標準設定之際發現:依據PLD屬於進階試題,試題複雜度及應用度有偏低易解的現象;而屬於基礎層級試題,卻因資訊及描述方式,影響通過率偏低。小六標準設定成員認為:(1)若因難度值高與通過率低,而降低標準提高層級,將無法藉此看到現場學生學習所呈現的問題,達到改善教學之效;(2)判斷為基礎層級的試題,若學生表現通過率低,正可反映教學現場的老師對此部分的忽略,或給學生操作理解的機會較少;(3)被判斷為精熟的試題,學生表現通過率高,可反映出此部分老師教學成功。因此,小六標準設定成員將IRT的參數值等回饋訊息視為參考點,將需要較多解讀步驟或涵蓋變化較大試題的決斷層級上移一層,以反映現場老師對課程的解讀、轉化及著力點,藉此看到學生學習上的問題。如上的層級判斷準則確認下,小六標準設定成員降低對PLD的倚賴度,而以教學經驗中學生對此問題的通過率,以及根據解題難易程度執行標準設定。小六標準設定成員該種因應的模式,正反應NAEP以複雜度為認知要求的評量架構,所以小六整體標準設定的決斷分數其標準誤低於小四標準設定,而且每層級輪與輪之間波動小。

研究建議:TASA標準設定之際,若PLD的「政策性定義」繼續參照NAEP設成基礎、精熟、進階三個層級基礎,評量架構除內含內容領域向度外,另一認知要求的向度宜兼顧數學低、中、高等不同的複雜度;此外,評量工具建置的前後流程,宜「釐清評量目的」 「訂立評量架構」 「撰寫PLD「編製測驗內容」,最後才執行標準設定。如此,除了能避免標準設定當日須另外設置檢視PLD是否妥適的時段,造成標準設定時間的壓縮與PLD共識時間不足的現象,最重要的是試題撰寫內容能明顯區隔不同的層級。