fbpx
维基百科

DBpedia

DBpediaDB乃是資料庫,database的意思,也可做資料庫百科全書解) 是一項從維基百科裡萃取結構化內容英语structured content的專案計畫。這些計畫所得的結構化資訊,也將放在網際網路中公開讓人取閱。[1]DBpedia允許使用者查詢跟維基百科相關資源之間的關係與性質,甚至也可查詢從維基百科外連到其他資料組英语dataset的內容。[2]DBpedia曾被全球資訊網創始人提姆·柏內茲-李評論為世界上最有名的幾個去中心化連結資料的專題之一。[3]

DBpedia
開發者
首次发布2007年1月23日 (2007-01-23)
目前版本
  • 2016-10 (2017年7月4日)
源代码库
  • github.com/dbpedia/
编程语言
操作系统Virtuoso Universal Server
类型
许可协议GNU General Public License
网站dbpedia.org

緣起

此計畫案一開始是由來自柏林自由大學以及萊比錫大學的人士所開啟,並與開放連結軟體英语OpenLink Software(Open Linked Software)同盟合作[4]。第一份公開可取得的資料集在2007年時發佈。它是透過自由授權英语free license的方式所發佈,允許他人自由利用這些資料集。

維基百科的條目大部分都是沒有固定格式的文字,不過也有部分的資料是屬於結構化的資訊並且被鑲嵌在條目中,像是資訊框的表格內容(也就是預設在桌機版維基百科瀏覽格式,出現在條目右上角出現的欄位,或是行動版維基百科的條目一開始就顯示的欄位。)、分類、圖像、地理座標、以及外部網頁連結。這些結構化的資訊會在此計畫案被提取出來並且將其統一的放在一個資料集裡頭以方便查詢。

資料組

2013年9月,DBpedia發佈了第3.9版的更新。[5]如同之前版本的加強,這次也新增了維基百科更多資訊框的比對,同時也新增了維基數據的連結。(透過 owl:sameAs 的連結)。[5]此版的資料組描述了四百萬筆實體(entities),其中有322萬筆實體是在一個連貫的知識本體中進行分類,這些實體包含了832,000位人物、639,000個地景、116,000份音樂專輯、78,000部影片、18,500個電動遊戲、209,000個組織、226,000個物種以及5,600種疾病。[6]。DBpedia資料集提供了最多有119個不同語言的特色標籤以及資料摘要;現總共有2460萬個圖片連結以及2760萬筆連到外部網頁的連結資料、4500萬筆連結到其他RDF格式的資料集、6700萬筆連結到維基百科的分類頁,以及4120萬筆YAGO2英语YAGO (Ontology)分類的資料[6]。DBpedia計畫使用資源描述框架(Resource Description Framework,簡稱RDF)來呈現擷取的資料,目前包含了24.6億筆的RDF triple英语RDF triple資料、4700萬從英文版本維基百科上擷取的資料、19.8億則來自其他的語言版本,同時有大約4,500萬的資料連往外部的資料集。[6]

從本資料集,多個頁面之間傳播的資訊可以被擷取,例如某書籍的作者資料,能夠被放在關於此書或關於作者的頁面中。

從維基百科擷取資料其中的一個重大挑戰是,相同概念可能會在資訊框以及其他的模版中被用不同的參數表示,例如|birthplace=以及|placeofbirth=意義相同。在這樣的情況下,查詢人物出生地點就必須要在這兩個參數下都有查詢才能夠得到完整的結果。於是,DBpedia的映對語言就被開發了出來,以幫助映對知識本體裡頭這些定義的異同,進而減少同義詞的重疊。有鑑於維基百科中使用資訊框以及其他數值非常的多元,開發以及改善映對語言的機制是以開源的方式徵求大眾參與[7]

範例

DBpedia摘取維基百科頁面上的事實資訊,讓使用者可以不用在多個維基百科條目之間瀏覽便找到問題的答案。查詢資料的方式是利用SPARQL(像SQL查詢語言)來對資源描述框架(RDF)進行查詢。舉例,假如你對日本少女漫畫系列東京喵喵感興趣,想要找這部漫畫的繪者創作的其他作品。DBpedia結合了維基百科上東京喵喵、征海未亞這些條目,以及相關作品諸如麗佳公主以及恋きゅー英语Koi Cupid的資訊。因為DBpedia把這些資料都標準化到單一的資料庫裡,下列查詢 (页面存档备份,存于互联网档案馆)就能夠在不需具體清楚哪一個條目有包含了哪一部分的片段資訊,就能夠完整的列出相關作品類型:

PREFIX dbprop: <http://dbpedia.org/property/> PREFIX db: <http://dbpedia.org/resource/> SELECT ?who, ?WORK, ?genre WHERE { db:Tokyo_Mew_Mew dbprop:author ?who . ?WORK dbprop:author ?who . OPTIONAL { ?WORK dbprop:genre ?genre } . } 

使用DBpedia的相關計畫或組織

DBpedia廣納了人類知識不同領域,十分多元的範疇資料。這使得它自然而然成為連結眾多資料集的樞紐,讓外部資料集能夠連結到相關的概念。[8]DBpedia的資料集是跟其他許多網路上不同的開放資料資料集在RDF的層級交互相連著。透過這些資料集,可以讓應用程式豐富DBpedia的資料。截至2013年9月 (2013-09),已經有超過4500萬筆在DBpedia與外部資料集之間的交互連結產生,外部資料集包含:Freebase (database)OpenCycUMBEL英语UMBELGeoNamesMusicbrainzCIA World Fact BookDBLPProject Gutenberg、DBtune JamendoEurostatUniprotBio2RDF英语Bio2RDF、以及美國普查英语US Census等資料[9][10]湯森路透公司的前導計畫OpenCalais英语Calais (Reuters Product)紐約時報的連結開放資料計畫、Zemanta英语Zemanta API以及DBpedia Spotlight也納入了DBpedia的連結[11][12][13]BBC也使用DBpedia來輔助其內容組織[14][15]Faviki英语Faviki使用DBpedia進行語意標籤(semantic tagging)[16]

亞馬遜公司提供一串DBpedia公共資料集(Public Data Set),這可整合進亞馬遜網路服務應用之中[17]

DBpedia Spotlight

2010年6月,來自Web Based Systems Group以及柏林自由大學的研究人員開始了一個叫做「DBpedia Spotlight」的計畫,開發工具來將文字資料中使用DBpedia資源的部份加上註解。這個工具解決了過去透過DBpedia連結非結構化資訊來源到開放連結資料雲的問題。DBpedia Spotlight可展示已命名實體擷取(named entity extraction)、包含實體偵測(entity detection)以及命名衝突化解(name resolution)(也就是消歧義(disambiguation))。此工具也能在其他資訊擷取(information extraction)任務中,用來進行命名實體辨識(named entity recognition)。DBpedia Spotlight聚焦在多種不同用途的客製應用。不去聚焦於少部分的實體類型,此計畫試圖支援全部DBpedia上來自超過320個不同分類裡,共約三百五十萬個實體與概念。

DBpedia Spotlight可公開獲取,是以一個為了測試用途而提供的網路服務,或者也可以從Apache授權Java/Scala API。DBpedia Spotlight分配也包含了一jQuery插件,此插件允許開發人員在網路上的任何一頁加上註解,只要在他們的頁面上增加一行文字即可[18]用戶端也有Java或PHP的支援應用[19]。此工具可從其展示頁(demo page)裡,處理多種的英語資料[20]以及網路服務。國際化的支援部分,只要此語言有開維基百科即可支援[21]

參見

參考來源

  1. ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian. (PDF). Web Semantics: Science, Services and Agents on the World Wide Web. September 2009, 7 (3): 154–165 [2014-06-04]. ISSN 1570-8268. doi:10.1016/j.websem.2009.07.002. (原始内容 (PDF)存档于2010-02-02). 
  2. ^ Komplett verlinkt - Linked Data. 3sat. 2009-06-19 [2009-11-10]. (原始内容存档于2013-01-06) (德语). 
  3. ^ . Talis. 7 February 2008 [2014年6月4日]. (原始内容存档于2013年5月10日). 
  4. ^ , [2009-11-23], (原始内容存档于2014-09-21) 
  5. ^ 5.0 5.1 Changelog. DBpedia. September 2013 [23 September 2013]. (原始内容于2014-06-06). 
  6. ^ 6.0 6.1 6.2 DBpedia 3.9 released.... DBpedia. [2013-09-23]. (原始内容于2013-09-27). 
  7. ^ DBpedia Mappings. mappings.dbpedia.org. [2010-04-03]. (原始内容于2020-10-24). 
  8. ^ E. Curry, A. Freitas, and S. O’Riáin, "The Role of Community-Driven Data Curation for Enterprises," (页面存档备份,存于互联网档案馆) in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47.
  9. ^ Statistics on links between Data sets, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), [2009-11-24], (原始内容于2009-10-02) 
  10. ^ Statistics on Data sets, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), [2009-11-24], (原始内容于2009-10-15) 
  11. ^ Sandhaus, Evan; Larson, Rob. First 5,000 Tags Released to the Linked Data Cloud. open.blogs.nytimes.com. 2009-10-29 [2009-11-10]. (原始内容于2020-10-26). 
  12. ^ . www.opencalais.com. [2009-11-10]. (原始内容存档于2009-11-24). Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format. 
  13. ^ . blogs.zdnet.com. [2009-11-10]. (原始内容存档于2010-02-28). Zemanta fully supports the Linking Open Data initiative. It is the first API that returns disambiguated entities linked to dbPedia, Freebase, MusicBrainz, and Semantic Crunchbase. 
  14. ^ . www.eswc2009.org. [2009-11-10]. (原始内容存档于2009-06-08). 
  15. ^ BBC Learning - Open Lab - Reference. bbc.co.uk. [2009-11-10]. (原始内容于2009-08-25). Dbpedia is a database version of Wikipedia. It is used in a lot of projects for a wide range of different reasons. At the BBC we are using it for tagging content. 
  16. ^ . www.readwriteweb.com. (原始内容存档于2010-01-29). 
  17. ^ . developer.amazonwebservices.com. [2009-11-10]. (原始内容存档于2010-02-13). 
  18. ^ Mendes, Pablo. DBpedia Spotlight jQuery Plugin. jQuery Plugins. [15 September 2011]. (原始内容于2011-04-03). 
  19. ^ DiCiuccio, Rob. PHP Client for DBpedia Spotlight. GitHub. [2014-06-04]. (原始内容于2019-02-15). 
  20. ^ . [September 8, 2013]. (原始内容存档于2012年10月11日). 
  21. ^ Internationalization of DBpedia Spotlight. [September 8, 2013]. (原始内容于2019-09-24). 

外部連結

  • 官方网站
  • TED大會上,由蒂姆·伯納斯-李所做的關於語意網(semantic web)短講影片(页面存档备份,存于互联网档案馆),引用了DBpedia作為範例。
  • DBpedia - Extracting structured data from Wikipedia(页面存档备份,存于互联网档案馆) 以及 LinkedGeodata(页面存档备份,存于互联网档案馆),2009年國際維基年會兩個談到關於DBpedia計畫的議程。
  • DBpedia: Querying Wikipedia like a Database(页面存档备份,存于互联网档案馆) - Chris Bizer, World Wide Web Conference Developers Track, 11 May 2007
  • W3C SWEO Linking Open Data Community Project(页面存档备份,存于互联网档案馆
  • DBpedia Spotlight的首頁連結(页面存档备份,存于互联网档案馆

dbpedia, db乃是資料庫, database的意思, 也可做資料庫百科全書解, 是一項從維基百科裡萃取結構化內容, 英语, structured, content, 的專案計畫, 這些計畫所得的結構化資訊, 也將放在網際網路中公開讓人取閱, 允許使用者查詢跟維基百科相關資源之間的關係與性質, 甚至也可查詢從維基百科外連到其他資料組, 英语, dataset, 的內容, 曾被全球資訊網創始人提姆, 柏內茲, 李評論為世界上最有名的幾個去中心化連結資料的專題之一, 開發者萊比錫大學, 柏林自由大學, 開放連結軟. DBpedia DB乃是資料庫 database的意思 也可做資料庫百科全書解 是一項從維基百科裡萃取結構化內容 英语 structured content 的專案計畫 這些計畫所得的結構化資訊 也將放在網際網路中公開讓人取閱 1 DBpedia允許使用者查詢跟維基百科相關資源之間的關係與性質 甚至也可查詢從維基百科外連到其他資料組 英语 dataset 的內容 2 DBpedia曾被全球資訊網創始人提姆 柏內茲 李評論為世界上最有名的幾個去中心化連結資料的專題之一 3 DBpedia開發者萊比錫大學 柏林自由大學 開放連結軟體首次发布2007年1月23日 2007 01 23 目前版本2016 10 2017年7月4日 源代码库github wbr com wbr dbpedia wbr 编程语言Scala Java VSP操作系统Virtuoso Universal Server类型Semantic Web Linked Data许可协议GNU General Public License网站dbpedia wbr org 目录 1 緣起 2 資料組 3 範例 4 使用DBpedia的相關計畫或組織 5 DBpedia Spotlight 6 參見 7 參考來源 8 外部連結緣起 编辑此計畫案一開始是由來自柏林自由大學以及萊比錫大學的人士所開啟 並與開放連結軟體 英语 OpenLink Software Open Linked Software 同盟合作 4 第一份公開可取得的資料集在2007年時發佈 它是透過自由授權 英语 free license 的方式所發佈 允許他人自由利用這些資料集 維基百科的條目大部分都是沒有固定格式的文字 不過也有部分的資料是屬於結構化的資訊並且被鑲嵌在條目中 像是資訊框的表格內容 也就是預設在桌機版維基百科瀏覽格式 出現在條目右上角出現的欄位 或是行動版維基百科的條目一開始就顯示的欄位 分類 圖像 地理座標 以及外部網頁連結 這些結構化的資訊會在此計畫案被提取出來並且將其統一的放在一個資料集裡頭以方便查詢 資料組 编辑2013年9月 DBpedia發佈了第3 9版的更新 5 如同之前版本的加強 這次也新增了維基百科更多資訊框的比對 同時也新增了維基數據的連結 透過 owl sameAs 的連結 5 此版的資料組描述了四百萬筆實體 entities 其中有322萬筆實體是在一個連貫的知識本體中進行分類 這些實體包含了832 000位人物 639 000個地景 116 000份音樂專輯 78 000部影片 18 500個電動遊戲 209 000個組織 226 000個物種以及5 600種疾病 6 DBpedia資料集提供了最多有119個不同語言的特色標籤以及資料摘要 現總共有2460萬個圖片連結以及2760萬筆連到外部網頁的連結資料 4500萬筆連結到其他RDF格式的資料集 6700萬筆連結到維基百科的分類頁 以及4120萬筆YAGO2 英语 YAGO Ontology 分類的資料 6 DBpedia計畫使用資源描述框架 Resource Description Framework 簡稱RDF 來呈現擷取的資料 目前包含了24 6億筆的RDF triple 英语 RDF triple 資料 4700萬從英文版本維基百科上擷取的資料 19 8億則來自其他的語言版本 同時有大約4 500萬的資料連往外部的資料集 6 從本資料集 多個頁面之間傳播的資訊可以被擷取 例如某書籍的作者資料 能夠被放在關於此書或關於作者的頁面中 從維基百科擷取資料其中的一個重大挑戰是 相同概念可能會在資訊框以及其他的模版中被用不同的參數表示 例如 birthplace 以及 placeofbirth 意義相同 在這樣的情況下 查詢人物出生地點就必須要在這兩個參數下都有查詢才能夠得到完整的結果 於是 DBpedia的映對語言就被開發了出來 以幫助映對知識本體裡頭這些定義的異同 進而減少同義詞的重疊 有鑑於維基百科中使用資訊框以及其他數值非常的多元 開發以及改善映對語言的機制是以開源的方式徵求大眾參與 7 範例 编辑DBpedia摘取維基百科頁面上的事實資訊 讓使用者可以不用在多個維基百科條目之間瀏覽便找到問題的答案 查詢資料的方式是利用SPARQL 像SQL的查詢語言 來對資源描述框架 RDF 進行查詢 舉例 假如你對日本少女漫畫系列東京喵喵感興趣 想要找這部漫畫的繪者創作的其他作品 DBpedia結合了維基百科上東京喵喵 征海未亞這些條目 以及相關作品諸如麗佳公主以及恋きゅー 英语 Koi Cupid 的資訊 因為DBpedia把這些資料都標準化到單一的資料庫裡 下列查詢 页面存档备份 存于互联网档案馆 就能夠在不需具體清楚哪一個條目有包含了哪一部分的片段資訊 就能夠完整的列出相關作品類型 PREFIX dbprop lt http dbpedia org property gt PREFIX db lt http dbpedia org resource gt SELECT who WORK genre WHERE db Tokyo Mew Mew dbprop author who WORK dbprop author who OPTIONAL WORK dbprop genre genre 使用DBpedia的相關計畫或組織 编辑DBpedia廣納了人類知識不同領域 十分多元的範疇資料 這使得它自然而然成為連結眾多資料集的樞紐 讓外部資料集能夠連結到相關的概念 8 DBpedia的資料集是跟其他許多網路上不同的開放資料資料集在RDF的層級交互相連著 透過這些資料集 可以讓應用程式豐富DBpedia的資料 截至2013年9月 2013 09 update 已經有超過4500萬筆在DBpedia與外部資料集之間的交互連結產生 外部資料集包含 Freebase database OpenCyc UMBEL 英语 UMBEL GeoNames Musicbrainz CIA World Fact Book DBLP Project Gutenberg DBtune Jamendo Eurostat Uniprot Bio2RDF 英语 Bio2RDF 以及美國普查 英语 US Census 等資料 9 10 湯森路透公司的前導計畫OpenCalais 英语 Calais Reuters Product 紐約時報的連結開放資料計畫 Zemanta 英语 Zemanta API 以及DBpedia Spotlight也納入了DBpedia的連結 11 12 13 BBC也使用DBpedia來輔助其內容組織 14 15 Faviki 英语 Faviki 使用DBpedia進行語意標籤 semantic tagging 16 亞馬遜公司提供一串DBpedia公共資料集 Public Data Set 這可整合進亞馬遜網路服務應用之中 17 DBpedia Spotlight 编辑2010年6月 來自Web Based Systems Group以及柏林自由大學的研究人員開始了一個叫做 DBpedia Spotlight 的計畫 開發工具來將文字資料中使用DBpedia資源的部份加上註解 這個工具解決了過去透過DBpedia連結非結構化資訊來源到開放連結資料雲的問題 DBpedia Spotlight可展示已命名實體擷取 named entity extraction 包含實體偵測 entity detection 以及命名衝突化解 name resolution 也就是消歧義 disambiguation 此工具也能在其他資訊擷取 information extraction 任務中 用來進行命名實體辨識 named entity recognition DBpedia Spotlight聚焦在多種不同用途的客製應用 不去聚焦於少部分的實體類型 此計畫試圖支援全部DBpedia上來自超過320個不同分類裡 共約三百五十萬個實體與概念 DBpedia Spotlight可公開獲取 是以一個為了測試用途而提供的網路服務 或者也可以從Apache授權的Java Scala API DBpedia Spotlight分配也包含了一jQuery插件 此插件允許開發人員在網路上的任何一頁加上註解 只要在他們的頁面上增加一行文字即可 18 用戶端也有Java或PHP的支援應用 19 此工具可從其展示頁 demo page 裡 處理多種的英語資料 20 以及網路服務 國際化的支援部分 只要此語言有開維基百科即可支援 21 參見 编辑BabelNet Freebase Semantic MediaWikiWikidata Linked Hypernyms Dataset 页面存档备份 存于互联网档案馆 參考來源 编辑 Bizer Christian Lehmann Jens Kobilarov Georgi Auer Soren Becker Christian Cyganiak Richard Hellmann Sebastian DBpedia A crystallization point for the Web of Data PDF Web Semantics Science Services and Agents on the World Wide Web September 2009 7 3 154 165 2014 06 04 ISSN 1570 8268 doi 10 1016 j websem 2009 07 002 原始内容 PDF 存档于2010 02 02 Komplett verlinkt Linked Data 3sat 2009 06 19 2009 11 10 原始内容存档于2013 01 06 德语 Sir Tim Berners Lee Talks with Talis about the Semantic Web Talis 7 February 2008 2014年6月4日 原始内容存档于2013年5月10日 wiki dbpedia org Team 2009 11 23 原始内容存档于2014 09 21 5 0 5 1 Changelog DBpedia September 2013 23 September 2013 原始内容存档于2014 06 06 6 0 6 1 6 2 DBpedia 3 9 released DBpedia 2013 09 23 原始内容存档于2013 09 27 DBpedia Mappings mappings dbpedia org 2010 04 03 原始内容存档于2020 10 24 E Curry A Freitas and S O Riain The Role of Community Driven Data Curation for Enterprises 页面存档备份 存于互联网档案馆 in Linking Enterprise Data D Wood Ed Boston MA Springer US 2010 pp 25 47 Statistics on links between Data sets SWEO Community Project Linking Open Data on the Semantic Web W3C 2009 11 24 原始内容存档于2009 10 02 Statistics on Data sets SWEO Community Project Linking Open Data on the Semantic Web W3C 2009 11 24 原始内容存档于2009 10 15 Sandhaus Evan Larson Rob First 5 000 Tags Released to the Linked Data Cloud open blogs nytimes com 2009 10 29 2009 11 10 原始内容存档于2020 10 26 Life in the Linked Data Cloud www opencalais com 2009 11 10 原始内容存档于2009 11 24 Wikipedia has a Linked Data twin called DBpedia DBpedia has the same structured information as Wikipedia but translated into a machine readable format Zemanta talks Linked Data with SDK and commercial API blogs zdnet com 2009 11 10 原始内容存档于2010 02 28 Zemanta fully supports the Linking Open Data initiative It is the first API that returns disambiguated entities linked to dbPedia Freebase MusicBrainz and Semantic Crunchbase European Semantic Web Conference 2009 Georgi Kobilarov Tom Scott Yves Raimond Silver Oliver Chris Sizemore Michael Smethurst Christian Bizer and Robert Lee Media meets Semantic Web How the BBC uses DBpedia and Linked Data to make Connections www eswc2009 org 2009 11 10 原始内容存档于2009 06 08 BBC Learning Open Lab Reference bbc co uk 2009 11 10 原始内容存档于2009 08 25 Dbpedia is a database version of Wikipedia It is used in a lot of projects for a wide range of different reasons At the BBC we are using it for tagging content Semantic Tagging with Faviki www readwriteweb com 原始内容存档于2010 01 29 Amazon Web Services Developer Community DBpedia developer amazonwebservices com 2009 11 10 原始内容存档于2010 02 13 Mendes Pablo DBpedia Spotlight jQuery Plugin jQuery Plugins 15 September 2011 原始内容存档于2011 04 03 DiCiuccio Rob PHP Client for DBpedia Spotlight GitHub 2014 06 04 原始内容存档于2019 02 15 Demo of DBpedia Spotlight September 8 2013 原始内容存档于2012年10月11日 Internationalization of DBpedia Spotlight September 8 2013 原始内容存档于2019 09 24 外部連結 编辑维基共享资源中相关的多媒体资源 DBpedia官方网站 在TED大會上 由蒂姆 伯納斯 李所做的關於語意網 semantic web 短講影片 页面存档备份 存于互联网档案馆 引用了DBpedia作為範例 DBpedia Extracting structured data from Wikipedia 页面存档备份 存于互联网档案馆 以及 LinkedGeodata 页面存档备份 存于互联网档案馆 2009年國際維基年會兩個談到關於DBpedia計畫的議程 DBpedia Querying Wikipedia like a Database 页面存档备份 存于互联网档案馆 Chris Bizer World Wide Web Conference Developers Track 11 May 2007 W3C SWEO Linking Open Data Community Project 页面存档备份 存于互联网档案馆 DBpedia Spotlight的首頁連結 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title DBpedia amp oldid 71583404, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。