語文教育及編譯研究中心 | 吳鑑城 副研究員
語料庫,顧名思義,是「語料」的「庫藏」。這個「寶庫」裡可能收藏著來自不同文本的語言素材,涵蓋範圍廣泛,包括(但不限於)古籍、現代小說、新聞文章、學術論文,甚至社群媒體上留言的書面語語料;也可以是保存著來自各種情境所產出的自然對話、演講、訪談,講課等語音(或其逐字稿)的口語語料。語料庫所涵蓋的龐大真實使用情境語言材料,蘊含著各種真實使用情境下的語言表達,反映了語言使用的多元面向。
近年來,大家耳熟能詳的大語言模型,如生成式預訓練變換模型(Generative Pre-trained Transformer, GPT)系列,正是通過深度學習技術在大量的語料庫上訓練而成。語料庫作為「教材」,模型從中學習語言的模式、規則,並將這些知識轉化為人機互動、語言生成的實用性技能,使模型能夠預測、生成符合語法結構的文本,並在文本中理解上下文的關聯性。
國家教育研究院所建置的臺灣華語文語料庫(Corpus of Contemporary Taiwanese Mandarin, COCT)收錄了書面語、口語、華英雙語及華語中介語等各類語料。其中,正體中文的書面語語料截至111年底已有約4億4,401萬字,且為了便於使用者檢視及分析語料,更以英國蘭開斯特大學(Lancaster University)所研發的CQPweb為基礎,建置了國教院語料庫索引典(後稱系統,見圖一)讓使用者可進行靈活的查詢和分析,並藉由搭配中文語料庫,深入挖掘各種詞彙現象。
圖1、國教院語料庫索引典
除了可直接查詢目標詞外,系統提供了多樣的強大查詢方式,當我們想觀察中文詞綴(affix)現象,例如中文常見的前綴「阿」,只需輸入「阿+」,就可以獲得所有「阿」開頭的詞語出現的例句(如圖二),還可進一步透過系統內建統計分析功能,取得各個詞語出現的頻率跟比例(如圖三),讓我們立刻可以瞭解前綴「阿」常組成像「阿嬤」、「阿姨」等親謂稱呼,也會用於名稱之中,如「阿里」、「阿拉伯」、「阿福」。
圖2、檢索「阿+」取得所有含有前綴「阿」所組成語詞的句子
圖3、有前綴「阿」所組成語詞的分析情形
除了能夠分析語詞的結構,系統還能協助探索語詞之間的關係。以量詞「座」為例,透過系統的搭配詞功能,我們能夠迅速查找常與「座」一同出現在句子中的其他詞彙,如數詞「ㄧ」、指示代詞「這」、「那」,以及名詞「山」、「城市」、「橋」等(見圖四)。進一步深入分析這些搭配詞,有助於揭示有關「座」更多語言現象。例如,名詞「山」、「城市」、「橋」等顯示了「座」常與地理元素和建築物相關聯。除了前述的分享之外,系統還具有許多功能,歡迎大家共同來探索。
圖4、「座」的搭配詞資訊
中文語料庫的存在,不僅讓語言學家能夠更系統地研究語言的變化、規律和演變,再透過強大的索引典,我們更得以窺探中文詞彙在不同時期、不同語境下的變化,從而更深入地理解中文的豐富性。無論是對於語言學者還是中文學習者而言,這樣的探索都將是一場豐富而有趣的冒險!
資料來源
林慶隆、林崇熙、白明弘、吳欣儒、連育仁(2022)。華語文教育課程指引研發與語料庫應用推廣_111年計畫期末報告。國家教育研究院研究計畫成果報告(編號:NAER-2022-012-C-3-4-C1-02)。新北市:國家教育研究院。
林慶隆、柯華葳、吳鑑城、白明弘、陳茹玲(2019)。《建置應用語料庫及標準體系》期末研究報告。國家教育研究院研究計畫成果報告(編號:NAER-107-12-F-1-01-00-1-11)。新北市:國家教育研究院。