國家教育研究院電子報 - 第249期 - 揭開中文詞彙的神祕面紗

:::

圖片來源：臺灣華語文語料庫網頁

揭開中文詞彙的神祕面紗

語料庫科技在語文教學的應用（V）

語文教育及編譯研究中心 | 吳鑑城副研究員

　　語料庫，顧名思義，是「語料」的「庫藏」。這個「寶庫」裡可能收藏著來自不同文本的語言素材，涵蓋範圍廣泛，包括（但不限於）古籍、現代小說、新聞文章、學術論文，甚至社群媒體上留言的書面語語料；也可以是保存著來自各種情境所產出的自然對話、演講、訪談，講課等語音（或其逐字稿）的口語語料。語料庫所涵蓋的龐大真實使用情境語言材料，蘊含著各種真實使用情境下的語言表達，反映了語言使用的多元面向。

　　近年來，大家耳熟能詳的大語言模型，如生成式預訓練變換模型（Generative Pre-trained Transformer, GPT）系列，正是通過深度學習技術在大量的語料庫上訓練而成。語料庫作為「教材」，模型從中學習語言的模式、規則，並將這些知識轉化為人機互動、語言生成的實用性技能，使模型能夠預測、生成符合語法結構的文本，並在文本中理解上下文的關聯性。

　　國家教育研究院所建置的臺灣華語文語料庫（Corpus of Contemporary Taiwanese Mandarin, COCT）收錄了書面語、口語、華英雙語及華語中介語等各類語料。其中，正體中文的書面語語料截至111年底已有約4億4,401萬字，且為了便於使用者檢視及分析語料，更以英國蘭開斯特大學（Lancaster University）所研發的CQPweb為基礎，建置了國教院語料庫索引典（後稱系統，見圖一）讓使用者可進行靈活的查詢和分析，並藉由搭配中文語料庫，深入挖掘各種詞彙現象。

圖1、國教院語料庫索引典

1-3揭開中文詞彙的神祕面紗圖1.png

　　除了可直接查詢目標詞外，系統提供了多樣的強大查詢方式，當我們想觀察中文詞綴(affix)現象，例如中文常見的前綴「阿」，只需輸入「阿+」，就可以獲得所有「阿」開頭的詞語出現的例句（如圖二），還可進一步透過系統內建統計分析功能，取得各個詞語出現的頻率跟比例（如圖三），讓我們立刻可以瞭解前綴「阿」常組成像「阿嬤」、「阿姨」等親謂稱呼，也會用於名稱之中，如「阿里」、「阿拉伯」、「阿福」。

圖2、檢索「阿+」取得所有含有前綴「阿」所組成語詞的句子

1-3揭開中文詞彙的神祕面紗圖2.png

圖3、有前綴「阿」所組成語詞的分析情形

1-3揭開中文詞彙的神祕面紗圖3.png

　　除了能夠分析語詞的結構，系統還能協助探索語詞之間的關係。以量詞「座」為例，透過系統的搭配詞功能，我們能夠迅速查找常與「座」一同出現在句子中的其他詞彙，如數詞「ㄧ」、指示代詞「這」、「那」，以及名詞「山」、「城市」、「橋」等（見圖四）。進一步深入分析這些搭配詞，有助於揭示有關「座」更多語言現象。例如，名詞「山」、「城市」、「橋」等顯示了「座」常與地理元素和建築物相關聯。除了前述的分享之外，系統還具有許多功能，歡迎大家共同來探索。

圖4、「座」的搭配詞資訊

1-3揭開中文詞彙的神祕面紗圖4.png

　　中文語料庫的存在，不僅讓語言學家能夠更系統地研究語言的變化、規律和演變，再透過強大的索引典，我們更得以窺探中文詞彙在不同時期、不同語境下的變化，從而更深入地理解中文的豐富性。無論是對於語言學者還是中文學習者而言，這樣的探索都將是一場豐富而有趣的冒險！

資料來源

林慶隆、林崇熙、白明弘、吳欣儒、連育仁（2022）。華語文教育課程指引研發與語料庫應用推廣_111年計畫期末報告。國家教育研究院研究計畫成果報告（編號：NAER-2022-012-C-3-4-C1-02）。新北市：國家教育研究院。

林慶隆、柯華葳、吳鑑城、白明弘、陳茹玲（2019）。《建置應用語料庫及標準體系》期末研究報告。國家教育研究院研究計畫成果報告（編號：NAER-107-12-F-1-01-00-1-11）。新北市：國家教育研究院。

附加檔案

揭開中文詞彙的神祕面紗—語料庫科技在語文教學的應用（V）.pdf （另開新視窗）

語料庫索引典臺灣華語文語料庫