天天看點

《中國人工智能學會通訊》——12.51 現有知識圖譜資源

知識圖譜經曆了由人工和群體智慧建構,到面向網際網路利用機器學習和資訊抽取技術自動擷取的過程。根據資訊來源和擷取方式的不同,目前的知識圖譜分為以下幾類。

依靠人工建構的知識資源

早期知識資源建立是通過人工添加和群體智能合作編輯得到,如英文 Wordnet [1] 和 Cyc 項目[2] ,以及中文的Hownet。Cyc 是一個通用的世界知識庫,始建于 1984 年,其目的是将上百萬條知識編碼為機器可處理形式,并在此基礎上實作知識推理等人工智能相關任務。Cyc 包含了 50 萬實體,接近 3 萬個關系以及 5 百萬事實。

基于群體智能的知識圖譜

維基百科是至今利用群體智能建立的網際網路上最大的知識資源,是以出現了很多使用維基百科建構知識庫的項目,如 DBpedia [3-4] 、YAGO [5-6] 和Freebase [7] 等。DBpedia 以建構本體的形式對知識條目進行組織。YAGO 融合 WordNet 良好的概念層次結構和維基百科中的大量實體資料。Freebase 是基于維基百科,使用群體智能方法建立的包含 6800萬實體的結構化資料的知識圖譜。清華大學和上海交通大學通過利用互動百科、百度百科,建立大規模知識圖譜 XLORE [8] 和 Zhishi.me [9] 。XLORE 以英文維基百科為橋梁,通過跨語言連結技術,建立融合了四大中英文百科資料的跨語言知識庫。

基于網際網路上連結資料建構的知識資源

國際網際網路組織 W3C 于 2007 年發起的開放互聯資料項目(Linked Open Data, LOD),為實作網絡環境下的知識釋出、互聯、共享和服務提供了創新技術,為智能搜尋、知識問答和語義內建提供了創新源動力。Sean Bechhofer [10] 等人在科學領域自建了一個近似于 Linked Data 的語義資料資源,該資源包含更準确的學術用語,并能很好地反映研究者的影響力。基于機器學習和資訊抽取建構的知識圖譜從網際網路資料自動擷取知識是建立可持續發展知識圖譜的發展趨勢。這類知識圖譜建構的特點是面向網際網路的大規模、開放、異構環境,利用機器學習和資訊抽取技術自動擷取 Web 上的資訊建構知識庫。如華盛頓大學圖靈中心的 KnowItAll [11] 和TextRunner [12] 項目、卡内基梅隆大學的“永不停歇的語言學習者”(Never-Ending Language Learner,NELL) 項目[13]都是這種類型的知識庫。

繼續閱讀