簡介國內外語料庫

| 林慶隆、陳怡臻】

【文 / 編譯發展中心主任 林慶隆、專案助理 陳怡臻】

語料庫為一種大型結構化的文字組合,通常以電子形式儲存運作。使用者藉由使用語料庫,可以迅速的了解某個字詞在所有情境下的運用(維基百科,2012)。自1967Henry KuceraW. Nelson Francis創建Brown Corpus平衡語料庫後,多年來,台灣、大陸或國際上,出現越來越多的語料庫,以大量語料結合統計或機器學習演算法來擷取語料間的語義關係,提供人們在教育、教學、翻譯等學習工具的使用。八零年代利用機讀辭典研究語法與詞彙開始興起(高照明,2007)。Crusader2007)認為使用語料庫的好處包括:可分別語言使用上的例外;翻譯者能迅速找到相對應的字詞,除更加準確外並提高效率;教導學生區分語言使用情境及重要性,以此看出不同的情境下所需要重視的詞性是那一個;提供老師教文法時應該搭配什麼樣的動詞;並在教學時藉由讓學生自行應用,提升學習能力及學習效果。九零年代英國國家語料庫及相關檢索軟體計畫,推出以Wordnet詞項意義標示出語料庫中的詞義。

38期電子報曾簡介"當代美語語料庫"(COCA)及"語文資料庫"(LDC)這兩個著名的國外語料庫,本文再介紹其它語料庫,詳如下表。國內較知名的語言知識庫有「光華雜誌中英對照知識庫」,收錄《台灣光華雜誌》19761月創刊至今的內容,包括中英對照文字與影像。主要介紹中華民國的政治、經濟、社會、文化藝術、工商產業現況。「科學人雜誌知識庫中英對照版」收錄《科學人雜誌》2002年中文版創刊以來的內容。中央研究院有兩個不同的字詞知識庫,一為「中央研究院中英雙語知識本體詞網」,提供的資訊包含中英雙語跨語言資訊轉換、語言資訊與概念架構的連結、詞義區分與詞義關係的連結及使用領域,讓不同來源的典藏知識內容,可以轉換成互通訊息;另一個則是「中研院中文詞彙特性速描系統」,它除了一般的關鍵詞及語境查詢外,更提供詞彙特性速描(word sketches)、語法關係及同近義詞分析等自動產生的語法知識。內容結合14億字的LDC Chinese Gigaword語料庫,可以應用在辭典編撰、華語文教學、語言學研究與自然語言處理上。

美國普林斯頓大學"Wordnet"是一個著名的詞彙知識庫,它根據詞條的意義分組,每一個具有相同意義的字條組稱為一個synset(同義詞集合),並記錄不同synset間的語義關係。南加州大學則整合許多知識庫發展出"Ontosaurus",內容就像Wordnet註明詞項的定義及語意類別。卡內基美侖大學利用Wordnet及其他包括百科全書在內的許多電子資源,發展出"Lexical Freenet",是相當完整的詞彙關係資料庫。至於,柏克萊加州大學的"FramNet",其檢索介面是依據不同語意框架詳細探討每個語意框架常用的詞彙語意角色和對應的語法功能(高照明,2007)。

大陸北京大學漢語語言學研究中心所建構的語料庫,提供現代漢語、古代漢語及漢英三種語料庫,不僅可支援複雜的檢索運算式、對標點符號進行查詢,並可從網頁上下載查詢的結果。「知網」(Hownet),則是由董振東先生發展,用以表達概念與概念間的常識關係。