DBpedia與Wikipedia

| 邵婉卿

【文 / 編譯發展中心助理研究員 邵婉卿】

全球資訊網發明者柏納李(Tim Berners-Lee)稱下一代網路為語意網(Semantic Web),語意網是現有網路架構的延伸,將資料定義得更明確,以具語意的標籤(markup)來包裹網頁文件,將網路上的文件予以有意義的結構化,使機器能理解文字背後所代表的意義,利用法則(rules)自動推論與判斷文件的內容與關係,建立能讓資訊充分分享與知識可重複使用的全球資訊網資料。由於傳統的全球資訊網中,文件與文件之間僅存在著連結(link)關係,並未指出彼此之間的關係為何,透過語意網以及相關的技術規範,相關的文件之間不但有了連結,還能標示出連結關係的類型屬性(Linked Open Data Project即因應而生)。Semantic Web是目標,Linked Data則是透過Semantic Web技術和標準連結,提供方法達成目標,產出Web of Data,朝終極目標「查詢網路就像查詢一個全球資料庫」邁進。

Wikipedia(維基百科)是流行的、免費的、自由的線上百科,不追求學科知識的完整性、系統性,也不注重學術上的權威性,目的是在建構出一部人人都可以編輯的和中立的百科全書,由主動的和自發性的撰稿者和編輯者一起決定要收編什麼內容,內容長度和篇幅也不受限於紙張和印刷費用的限制。為了讓Wikipedia的所有資源能具備語意網的功能,DBpedia就在這些資源加上自動化標記,透過許多工具促進辨識,增加Wikipedia內容的機器可讀性,一方面從Wikipedia條目裡擷取結構化的資料增進Wikipedia檢索效能,另一方面將其他資料集連結至Wikipedia,反過來豐富Wikipedia的內容,促進Wikipedia資訊的效用,DBpedia認為「這是對Wikipedia作者致敬的最佳方式」。

DBpedia透過語意化技術,已讓Wikipedia的龐雜資訊有了許多創新的應用,例如手機版本、地圖整合、多面向搜尋、關係查詢、文件分類與標註等等。DBpedia同時也是世界上最大的多領域知識本體(Ontology)之一。DBpedia計畫始於2007年,主要建立及維護的組織有三,分別是德國的萊比錫大學、柏林大學及OpenLink Software公司。

Wikipedia網頁內加上語意的好處,是讓Wikipedia可以回答複雜的問題,增加資料的查全率與可利用性。Semantic Web技術發展至今,DBpedia不但是網路資源自動化萃取的最佳範例,根據20119月最新的Linked Data統計結果顯示,DBpediaLinked Data網路中占最核心、最重要的地位,也擁有最多的連結。

DBpedia萃取Wikipedia的知識內容的方式有兩種,一種是透過Wikipedia儲存庫(Dumps)規律地每月萃取資料更新,另一種方式則為透過Wikipedia OAI-PMH協定,即時擷取Wikipedia的內容,Wikipedia平均每秒更新1.4個頁面,此萃取架構則可以承擔每秒8.8頁的更新速度,而且DBpediaWikipedia之間的更新延遲僅為12分鐘。

DBpedia的最新版本是20119月發布的3.7版,可以利用瀏覽及探勘、檢索與搜尋、以及文本註解等方法應用,除了英文版之外,另外提供15種非英語版本的資料集供下載,其中約4億筆來自於英文版的Wikipedia,其餘的6億多筆來自於其他語言版本,已描述364萬件事物,其中183萬件符合知識本體的架構,包含約42萬筆人物、17萬筆組織、53萬筆地區、11萬筆音樂專輯、6萬筆影片、2萬筆遊戲、18萬筆物種、以及5千多筆疾病,其資料不僅被BBC、路透社、紐約時報所採用,也是GoogleYahoo等搜尋引擎檢索的對象。

總之,DBpedia是針對Wikipedia上龐大資料庫進行的資料利用介面,使用一種新的、有趣的方式,讓這些Wikipedia上的資料內容可以讓機器更容易查找與定位,另一方面又能豐富Wikipedia的內涵,值得內容供應者(如本院)關注和運用。


【參考文獻】

Bizer, C. (2011). Credits. DBpedia. Retrieved Feb. 23, 2012, from http://wiki.dbpedia.org/Team

Bizer, C., et al. (2009). DBpedia - A crystallization point for the Web of Data. Web Semantics: Science, Services and Agents on the World Wide Web, 7(3), 154-165.

DBpedia. (2012). About. DBpedia. Retrieved Feb. 23, 2012, from http://wiki.dbpedia.org/about