| 吳鑑城
一、語料庫簡介
語料庫是一種依據特定原則進行蒐集並以數位化方式儲存的大量文本,蒐集的來源可包括書籍、新聞、線上論壇文章、各類字幕等。由於語料庫蘊含了語言使用的真實情境,且因數位化的便利,使用者可透過電腦輔助進行檢索、統計以觀察語言使用情形,探究語言的變化。
常見的語料庫類型依照蒐集之種類可分為書面語(如書籍、雜誌等)、口語(如對話、演講等之轉寫檔),亦可根據撰寫語言區分為單語、雙語及多語類型。近年來,為瞭解語言學習的語言特徵與發展,研究者也開始收集語言學習者使用目標語之書面語或口語語料以建置學習者語料庫(learner
corpus),又稱中介語語料庫(interlanguage
corpus)。
國外許多機構都早已著手建置各類型語料庫,包括英國國家語料庫(British
National Corpus, BNC)、美國當代英語語料庫(Corpus
of Contemporary American English, COCA)、國際英語學習者語料庫(International
Corpus of Learner English, ICLE)等。國內語料庫起步較晚,著名的中央研究院漢語平衡語料庫主要收錄新聞類型文本,約有1,000萬詞。國家教育研究院自102年承接教育部之華語文八年計畫之「建置應用語料庫及標準體系」,目前已建置了華語文語料庫(Corpus
of Contemporary Taiwanese Mandarin, COCT),內容包含了書面語4億1,000萬字(書籍為主)、口語2,030萬字、華英雙語1,000
萬字、華語中介語112
萬字,且以近十年的文本為主要蒐集對象,期能繼中研院平衡語料庫之後,作為新一代語言及教學研究之基礎知識來源。
二、語料庫於教學之應用
由於語料庫客觀地呈現語言真實的使用情境,學者經研究指出,教師跟學生可於教學過程中,直接透過檢索語料庫,觀察學習之目標字、詞、文句等資訊,探究語言現象,有助於詞彙、句法型式等的認知與習得,藉由此資料驅動學習(Data-Driven
Learning)方式,有助於在發現與解決真實語言問題時,提升語言分析能力。
而除了直接查詢外,更可運用語料庫作為間接協助教學之用。應用範圍包括從書面語及口語語料中進行字詞頻率統計,建立常用字詞表,如華語八千詞表,作為學習進程之參考;分析詞彙常用搭配,歸納詞彙使用情境,以突破語感的侷限;從學習者語料庫中分析學習者使用目標語的偏誤,如錯別字、近義詞誤用以及文法、句法錯誤等,歸納語文學習時的盲點或困難處,作為教學加強之重點參考。上述所提種種語料庫可提供的豐富分析成果,不僅可幫助辭典、工具書、教材之編輯,也可作為測驗內容以及教學大綱制定之參考。
資料來源:
許添明、林慶隆、柯華葳、張俊盛、陳浩然、高照明、蔡雅勳、張郁雯、陳柏熹、張莉萍(2017)。華語文八年計畫「建置應用語料庫及標準體系」。106年工作計畫期末報告。臺北市:國家教育研究院。
陳浩然(主編)(2017)。語料庫與華語教學。臺北市:高等教育出版社。