現代美語語料庫(COCA)與語言資料庫(LDC)簡介

| 林慶隆、陳怡臻

【文 / 編譯發展中心主任 林慶隆、專案助理 陳怡臻】

語料庫(corpus)為具語言研究價值的文字資料庫。最早建置在電腦中的語料庫是西元1967年由Henry KuceraW. Nelson Francis所創建的Brown  Corpus,收錄美國文章500篇,約100萬字(林武聰,2003),該語料庫是一個平衡語料庫,平衡指語料蒐集盡量做到平衡分配在不同的主題和語式上。平衡語料庫在語言學研究上有重要價值,建構一個平衡帶詞類標記的語料庫,收集語料是初步工作,其次是語料整理,包括語料清潔、為語料分類、加詞類標記等(陳克健,1994)。隨著科技發展,現在所稱的語料庫有3點特徵,第一,語言資料的整合是根據某項原則或是規定,使得資料庫具代表性。例如現代學習者語料庫常與學習者中間語(inter language)分析連結並做比對,將學習者語言看成是一種規則系統;第二,這些語料通常以資料庫形式存於電腦;第三,研究者可以利用這資料庫作各種量化及質性的分析(洪千惠,2009)。

Brown Corpus雖然以文體單一特徵來界定語料庫是不足的,但後來新建立的語料庫如LOBLancaster-Oslo/Bergen,英國英文)及London-Lund(英語口語),都還遵循Brown Corpus的架構。而且,Hsu and Huang1995)為了突破語料過於單純化的線性描述,利用五個不同特徵軸(文類、文體、語式、主題、媒體)的多重分類,以增加語料庫提供研究的活用性(中研院平衡語料庫構建技術手冊,2006)。

現代美語語料庫(Corpus of Contemporary American English)與語言資料庫(Linguistic Data Consortium)是兩個常被使用的語料庫,其內容及特色如下,

一、現代美語語料庫(Corpus of Contemporary American English,簡稱COCA

COCA由美國楊百翰大學語言學教授Mark Davies2008年建立,是全球最大免費英語語料庫,收錄16萬筆文本、多達4.25億則字彙,自1990年至2011年,以每年收錄2千萬字的速度成長。每個月大約有4萬人使用,大多是語言學家、教師、翻譯人員及研究人員。COCA具有五項特色:

1.            選取不同文本類型來查詢與比較。COCA的文本來自5項內容:

1)口說(spoken),包括150個電視或廣播節目對話,約85百萬字。

2)小說(fiction),包括短篇故事、戲劇/電影劇本,約81百萬字。

3)雜誌(popular magazines),包括新聞、健康、家庭園藝、女性話題、財經、宗教、運動等將近100種不同領域的雜誌,約86百萬字。

4)報紙(newspapers),包括10家報紙不同版面(地方新聞、評論、運動、財經)的文章,約81百萬字。

5)學術期刊(academic journals ),包括近100種不同種類的期刊,約81百萬字。

2.            隨時間推移,比較不同時間點出現的同一詞彙。

3.            提供詞彙出現頻率與相關字比較的功能。

4.            使用者自行訂定同一類別(服裝、 食物、 情緒)的字彙表列,便於日後查詢。

5.            涵蓋西班牙文與葡萄牙文語料庫。

二、語言資料庫(Linguistic Data Consortium,簡稱LDC

LDC由美國高等研究計畫機構(Advanced Research Projects Agency, ARPA)與美國國科會資訊智慧系統處於1992年建立,現在由賓州大學(University of Pennsylvania)主辦。網站營運基金來自公司、大學及網站會員使用費。網站內容包括阿拉伯文、中文、 英文等新聞電報文本,Brown Corpus全文,教育、研究及科技發展相關的語料資源,並且歡迎使用者分享資源。LDC具有四項特色:

1.            語料內容包含「中英翻譯辭彙版本3.0」,資料來源為字典與網路。

2.            「中英新聞雜誌對照文本」語料源於1976年至2004年臺灣光華雜誌的新聞報導。

3.            採付費使用原則,費用介於美金250元至2500元之間。

4.            提供西班牙文、德文、日文、韓文、法文、波斯文、北印度文、坦米爾文與越南文等語料資源。


【參考文獻】

中研院(2006)。平衡語料庫構建技術手冊。201249日,取自http://godel.iis.sinica.edu.tw/contest/CorpusIntroduction.htm

林武聰(2003)。線上英語學習環境。雲林科技大學電子與資訊工程研究所,未出版,雲林縣。

洪千惠(2009)。英譯中:譯文西化分析-語料庫為本的翻譯研究。輔仁大學翻譯學研究所碩士論文,未出版,新北市。

陳克健(1994)。素材語言學與文本處理201249日,取自

http://rocling.iis.sinica.edu.tw/CKIP/20corpus.htm

Corpus of Contemporary American English (2012).  201249日,取自http://corpus.byu.edu/coca/

Linguistic Data Consortium (2012).  201249日,取自http://ldc.upenn.edu/