1. 語義網洛
1.1 語義網絡的定義
語義網洛的定義如下:The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation[1].
1.2 語義網洛的構成
1.2.1 基礎層
主要包含Unicode和URI(Uniform Resource Identifier)。
Unicode是一種流行的字元集,采用兩位元組的全編碼,可 以表示65536個字元,這使得任何語言的字元都可以被機器 容易地接受。
URI即通用資源辨別符,用于唯一辨別抽象或實體資源的簡 單字元串。網絡上的任何資源包括HTML文檔、程式、圖檔 、音視訊等都有一個能被URI編碼的位址,進而實作對Web 資源的定位。
1.2.2 句法層
主要形式為XML,一種标準的中繼資料文法描述規範。為了便于程式或其他使用者能夠正确處理使用者定義的内容,XML還定義了命名空間(Name Space)和XML模式 規範(XML Schema),以提供更好地XML文檔服務。
1.2.3 資源描述架構
主要存儲Resource Description Framework(RDF),一種标準的中繼資料語義描述規範.RDF由三個部分組成:RDF Data Model、RDF Schema、RDF Syntax.
RDF的資料模型(RDF Data Model),提供了一個簡單但功能強大的通過資源、屬性及其相應值來描述特定資源模型。每一個資料模型可以看成是由節點和弧構成的有向圖。所有被描述的資源以及用來描述資源的屬性值都可以看做節點,屬性看做邊。由資源節點、屬性和屬性值組成的一個三元組叫做RDF陳述 (RDF Statement)。在模型中,陳述既可以作為資源節點,同時也可以作為值節點出現,是以一個模型中的節點有時不止一個。這時,用來描述資源節點的值節點本身還具有屬性類和值,并可以繼續細化。
RDF Schema是使用一種機器可以了解的體系來定義描述資源的詞彙作用:定義資源以及屬性的類别,定義屬性所應用的資源類以及屬性值的類型,定義上述類别聲明的文法,申明一些由其它機構或組織定義的中繼資料标準的屬性類
包括:
- 三個核心類:rdf:Resource,rdfs: Property,rdfs:Class
- 五個核心屬性:rdf:type,rdfs: subClassOf,rdfs: seeAlso,rdfs: subPropertyOf,rdfs:isDefinedBy
- 四個核心限制:rdfs:ConstrantResource, rdfs:range, rdfs:ConstraintProperty, rdfs:domain
RDF Syntax構造了一個完整的文法體系以利于計算機的自動處理,它以XML為其宿主語言,通過XML文法實作對各種中繼資料的內建。
1.2.4 本體層
該層在RDF的基礎上定義了RDFS(RDF Schema)和 OWL(Web Ontology Language),幫助使用者建構應用領域相關的輕量級的本體。RDFS和OWL定義了語義,可以支援機器在用RDFS和OWL描述的知識庫和本體中進行推理,以達到語義網的目标。
RDF模型的核心是用主體-謂詞-客體的三元組來描述資源間的二進制關系。通過RDFS能表示一些簡單的本體,描述某些本體知識,包括子類和子屬性關系、屬性的定義域和值域限制以及類的執行個體等,但還缺少局部值域定義、類/屬性/個體的等價性、不相交類、類的布爾結合、基數限制、關于屬性特性的描述等。為此,W3C提出了OWL擴充RDF(S),既能支援合理有效的推理,又能對本體知識充分描述。
除此之外,為了更好的查詢和推理,本體層有兩種語言SPARQL和Rule languages。SPARQL是一種查詢RDF的語言,用于事實的查詢和提取。
Rule languages(Rule Interchange Format RIF):Extend ontology languages with proprietary axioms and based on different types of logics. Using to enable reasoning over data to infer new knowledge.
1.2.5 邏輯層、驗證層和信任層
邏輯層在前面各層的基礎上進行邏輯推理操作。驗證層根據邏輯陳述進行驗證,以得出結論。信任層是語義網安全的組成部分,與加密不同的是,該層主要負責釋出語義網所能支援的信任評估。目前第6層和第7層正處于設想階段
1.3 知識工程科研項目
LOD2-Creating knowledge out of the Web
http://lod2.eu/Welcome.html
Read the Web-learned facts on the web
http://rtw.ml.cmu.edu/rtw/
KnowitAll
http://www.cs.washington.edu/research/knowitall/
1.4 知識工程工業項目
Waston-DeepQA
http://www.research.ibm.com/deepqa/deepqa.shtml
Knowledge graph-from information search to knowledge search
http://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html
2. 知識工程
2.1 知識模組化
常用的知識模組化的組織方式有
- 受控詞表(Controlled vocabulary)
Controlled vocabularies provide a way to organize knowledge for subsequent retrieval(圖書館領域). They are used in subject indexing schemes, subject headings, thesauri, taxonomies and other forms of knowledge organization systems.
Controlled vocabulary schemes mandate the use of predefined, authorized terms that have been preselected by the designer of the vocabulary, in contrast to natural language vocabularies, where there is no restriction on the vocabulary.
- 叙詞表(Thesaurus)
Thesaurus is a reference work that lists words grouped together according to similarity of meaning (containing synonyms and sometimes antonyms), in contrast to a dictionary, which provides definitions for words, and generally lists them in alphabetical order.
- 分類體系(Taxonomy)
Taxonomy is the practice and science of classification. It may refer to a classification of things or concepts, as well as to the principles underlying such a classification. For example, categories in Wikipedia and open directory project.
- 概念模型(Conceptual Model)
Conceptual Model is a model made of the composition of concepts, which are used to help people know, understand, or simulate a subject the model represents. Conceptual model represents the human intensions and semantics. Conceptualization maps observation of physical existence to concepts which convey semantics.
- 知識圖譜
The Knowledge Graph is a system that understands facts about people, places and things and how these entities are all connected.
目前為止常用的知識圖譜有
- SUMO
SUMO本體( suggested Upper Merged Ontology)的目标是建立高層獨立于領域的本體,它使完全相異的系統可以使用一個共同的知識庫。 它是由标準頂級本體(Standard Upper Ontology,簡稱為“SUO”)研究組申請(2000年),IEEE贊助的開放資源标準。最初由Lan Niles和 Adam Pease開發,現在由Teknowledge Corporation維護。目的是詳細定義一個頂級本體的文法和語義。SUMO是一個輕量級的本體,具有20,000個術語和60,000條公理。SUMO采用SUMO-KIF(Standard Upper Ontology Knowledge Interchange Format)語言進行描述,是以它所包括的概念和公理能被多數使用者了解掌握,并且可以進行推理。
- OpenCyc
OpenCyc本體的目标是人工教給計算機一些常識。它是一個基于常識的 、具有完整知識庫的邏輯推理引擎,是專家驅動生成的本體,是以規模有限。具有239,000詞項和2,093,000個三元組。它可以與外部知識庫如WordNet、DBpedia、Wikicompany等建立同義連結,大概有69,000個這樣的連結。
- WordNet
WordNet是為了對英語的自動文本分析和人工智能分析而設立的項目, 它是一個由普林斯頓大學認識科學實驗室在心理學教授喬治•米勒的指導下建立和維護的。它的開發工作是從1985年開始的,由語言學專家和計算機工程師們聯合設計的,目的是為自動的文本分析和人工智能應用提 供支援。它是個包含英語詞彙知識的英語字典,所有的唯一的名詞、動 詞、形容詞、副詞共有147,278個。這個項目的WordNet主要關注詞語之間的各種語義關系,共包含了11萬英文詞彙的詞義,其中每一個詞義都被表示為一個同義詞的集合。它的每個單詞(word)可能有多個不同的語義,對應不同的詞義(sense)。而每個不同的語義又可能對應多個詞 ,如topic和subject在某些情況下是同義的。除詞義之外,WordNet中還記錄了詞義之間的共六種語義關系,分别是:“屬于某類”(kind-of)關系(is-A)、“整體部分”(holonym)關系(part of))、“同義” (synonym)關系、“反義”(Antonymy)關系、“蘊含”( Entailment)關系、“動作的上下位”關系(Troponymy)這六種。
- DBpedia
DBpedia本體是由OpenLink20軟體公司贊助的,由德國的一些研究人 員從Wikipedia抽取結構化資訊并将其以關聯資料的形式共享在Web之上的資料集。它采用RDF文法表示群組織知識, 并支援基于SPARQL文法的知識查詢。它有119種語言版本,其中英文資料集描述了400萬個事情,48,293種屬性關系和4.7億個事實,具有1.8億條指向YAGO、Wikipedia、RDF和網頁的關聯資料。它融合了包括Geonames、 MusicBrainz、World Factbook、DBLP Berlin Jamendo等在内的15種外部資源。
- YAGO
YAGO(Yet Another Great Ontology,YAGO)本體的目标是從維基中抽取結構體系。它是一個由德國馬普所承擔的知識庫項目,它從三個資源(Wikipedia、WordNet、GeoNames16)中生成的。現在的最新的 版本是YAGO2s17。它含有超過一千萬的實體,包括人物、機構、城市 等,有8618種二進制關系,收集了超過1億多個事實,它還賦予了這些事實以時間和空間次元的資訊。人工标注結果顯示YAGO具有非常高的準确率(95%的準确率)。它融合了WordNet的體系結構和Wikipedia豐富的類别系統,實體類别超過35萬個。
- Freebase
Freebase本體是一種遵循知識共享協定的大規模結構化的開放共享資料 集,是個類似Wikipedia的創作共享類網站,内容可由使用者添加,采用創意共用許可證,可以自由引用。但是Freebase和Wikipedia之間最大的不同在于:Freebase中的條目都采用結構化資料的形式(這樣為資訊的查詢和處理提供了巨大的友善)而Wikipedia不是。除了使用者生成數 據之外,它還包含了ChefMoz、NNDB和MusicBrainz等資源。它的每個實體賦予了能夠唯一辨別的ID标記.
- Probase
Probase的目标是使計算機具有概念和概念化的能力,進而能夠了解人 類的交流。有概念和概念化的能力是人類特有的特征。為了讓計算機了解人類,需要給計算機一些常識。這些基本的常識包括:概念( concept,例如:emerging markets)、執行個體(instance,例如:China、India)、屬性(attribute,例如:area、gdp、population)、屬性值(value)、關系(relationship,例如:emerging market與 newly industrialized country有密切關系)。它有2,653,872個概念。這些概念是Probase自動擷取的,是從數百萬使用者生成的資料中抽取出來的。除了擁有規模巨大的概念之外,Probase可以量化概念的不确定性。它的每一個聲明(claim)都與一些機率有關。這些機率模組化了每個聲明的正确性、典型性、模糊性和其他特點。
2.2 知識抽取
具體詳見資訊抽取部分。
2.3 知識存儲
基于記憶體的存儲: Sesame Memory、OWLim、OWLJessKB.
基于傳統資料庫的方法:Jena,Sesame DB,DLDB-OWL,RStar,RDFSuite.
其它方法:Kowari,Hstar, Sysytem II.
2.4 知識的應用
- 實體連結
- 網際網路語義搜尋
- 基于知識庫的問答系統
-
基于知識的行業大資料分析
例如影視大資料分析:基于知識圖譜的影視元素關系挖掘:預測出凱文.史派西、大衛.芬奇和“BBC 出品”三種元素結合在一起的電視劇産品。
- 新聞資料分析
2.5 關于知識圖譜的主要會議和期刊
國際會議
- WWW (World Wide Web)
- AAAI (Conference on AI )
- IJCAI (International joint conference on AI)
- ISWC (International Semantic Web Conference)
- SIGMOD (Management of Data)
- CIKM (Information and Knowledge Management )
- EKAW (Knowledge Engineering and Knowledge Management )
- KR (Principles of Knowledge Representation and Reasoning )
- K-CAP (International Conference on Knowledge Capture)
國際期刊
- TKDE
- Journal of Web Semantics
- AI Magazine
- Data & Knowledge Engineering
參考文獻
[1] Berners-Lee T, Hendler J, Lassila O. The semantic web[J]. Scientific american, 2001, 284(5): 28-37.