系列目的

本系列基于教材《語義網基礎教程》，将一些架構和自己的想法列出。

語義網的動機

語義網出現的目的可以概括為：使計算機更能解讀網際網路。

目前的網際網路的内容無非就是文字，圖檔，視訊，聲音等等，誠然這些媒體是很有用的，但是人們也就是借助搜尋引擎，索引關鍵詞，将資訊從伺服器傳輸到用戶端而已。機器并不能了解網站上的内容，也就不能智能地進行選擇，組合，聚集資訊。語義網的出現就是為了解決這種傻瓜式索引。

語義網設計原則

使得結構化和半結構化的資料以标準化的格式在網際網路上可用
不僅制造資料集，還建立網際網路上可解讀的個體資料元素及其關系
使用形式化模型來描述這些資料的隐含語義，使得這些隐含語義能夠被機器處理

以上有一點需要說明，也就是目前網際網路的資料來源，也就是資料庫，他們實際上存在着大量結構化和半結構化的資料，隻不過轉為HTML語言的過程中都丢失了。

語義網的基礎技術

基于以上三個設計原則，有對應實作的技術

1.使用帶标簽的圖（labeled graph）作為對象及其關系的資料模型，圖中将對象作為節點，對象間的關系表示為邊。使用RDF（資源描述架構）的形式化模型表示。

2.使用網際網路辨別符（URI，統一資源辨別符）來辨別出現在資料集中的單個資料項以及它們之間的關系。這同樣反映在RDF的設計中。

3.使用本體（ontology）作為資料模型來形式化地表達資料地隐含語義。形式化模型有RDF schema（表達能力很弱）和OWL（網際網路本體語言）（表達能力強）。

語義網的網際網路體系結構

傳統網際網路是分布式的，“任何人可以說關于任何事的任何話”：任何人可以參考其他任何人的網頁，無需協商允許，或征求合适的位址或辨別符來使用。以下為一個場景：

A網站釋出了一個資料集

B網站獨立釋出了一個術語表

C網站決定用B網站釋出的術語來标注A網站的對象，而無需經過AB的允許。

實作上述體系結構需要三個步驟：

使用标準的文法來辨別資料和中繼資料
對中繼資料詞彙表取得足夠的共識，可以分享資料的隐含語義
使用第一步的格式和第二步的詞彙表來釋出大量的資料

語義網技術

顯式中繼資料

中繼資料（metadata) —詞的含義是：關于資料的資料。中繼資料捕獲資料的含義（meaning) 部分，也就是語義網中所說的語義（semantic) —詞。

本體

英文術語“ontology”一詞源于哲學領域，且一直以來存在着許多不同的用法。在計算機科學領域，其核心意思是指一種模型，用于描述由一套對象類型（概念或者說類）、屬性以及關系類型所構成的世界。盡管不同的本體對于這些構成成分的确切稱謂有所不同，但它們卻都是一部本體不可或缺的基本要素。一般來說，人們所普遍期望的一點就是，本體之中模型的那些特征應當非常類似于相應的現實世界。

針對我們的目标，我們将使用 T.R.Gruber 的定義，這個定義後來由 R.Studer 修訂：一個本體是一個概念體系的一種顯式的、形式化的歸約（ An ontology is an explicit and formal specification of a conceptualization)

兩種本體語言

RDF 模式是一種詞彙表描述語言，用來描述 RDF 資源的屬性和類，以及這些屬性和類的泛化層次的語義。此外，屬性的定義域和值域也可以定義。
OWL 是一種描述屬性和類的更豐富的詞彙表描述語言，例如類之間的關系（比如不相交 )、基數（比如“恰好等于1”）、相等、更加豐富的屬性類型定義、屬性的性質（比如對稱性 )，以及枚舉類等。

邏輯

邏輯是推理的前提和依據，一般給出簡單的規則“如果前提，那麼結論”，簡單推理比如A推出B，B推出C，則A能推出C。

語義網分層蛋糕

語義網筆記（一）初識語義網系列目的

1998年，Tim在“Semantic Web Road map”中系統闡述了他對語義網的構想。其核心思想是通過為網頁添加機器可讀的中繼資料，讓智能機器能了解網頁上的内容，進而實作自動化資訊處理。這些中繼資料可以為人工智能提供不可或缺的資料和知識。在該文中，他提出分層實作的技術棧：(1)基礎的資料描述層，以資源描述架構(RDF)為語言；(2)模式(schema)層，允許對資料屬性進行描述，如“父類子類關系是可傳遞的”；(3)轉化語言，可以在多個資料源之間做互相翻譯和映射；(4)邏輯層，表達資料之間更複雜的關系，例如“父親是有孩子的男性”，也包括查詢語言，提供一個類似SQL的語言，把整個Web變成一個分布式的資料庫；(5)數字簽名，提供信任和驗證。這個路線圖後來演化為著名的“語義網層次蛋糕”

以下截取百度百科的一些分層說明

語義網筆記（一）初識語義網系列目的

Berners-Lee于2000年提出了語義網的體系結構，并對此做了簡單的介紹。該體系結構共有七層，自下而上其各層功能逐漸增強。

第一層：“字元集”層。

Unicode和URI。Unicode是一個字元集，這個字元集中所有字元都用兩個位元組表示，可以表示65536個字元，基本上包括了世界上所有語言的字元。資料格式采用Unicode的好處就是它支援世界上所有主要語言的混合，并且可以同時進行檢索。URI(Uniform Resource Identifier），即統一資源定位符，用于唯一辨別網絡上的一個概念或資源。在語義網體系結構中，該層是整個語義網的基礎，其中Unicode負責處理資源的編碼，URI負責資源的辨別。

第二層：根标記語言層。

XML+NS+xmlschema。XML是一個精簡的标準通用标記語言，它綜合了标準通用标記語言的豐富功能與HTML的易用性，它允許使用者在文檔中加入任意的結構，而無需說明這些結構的含意。NS(Name Space）即命名空間，由URI索引确定，目的是為了避免不同的應用使用同樣的字元描述不同的事物。XML Schema是文檔類型定義（DTD）的替代品，它本身采用XML文法，但比DTD更加靈活，提供更多的資料類型，能更好地為有效的XML文檔服務并提供資料校驗機制。正是由于XML靈活的結構性、由URI索引的NS而帶來的資料可确定性以及XML Schema所提供的多種資料類型及檢驗機制，使其成為語義網體系結構的重要組成部分。該層負責從文法上表示資料的内容和結構，通過使用标準的語言将網絡資訊的表現形式、資料結構和内容分離。

第三層：“資源描述架構”層。

RDF+rdfschema。RDF是一種描述WWW上的資訊資源的一種語言，其目标是建立一種供多種中繼資料标準共存的架構。該架構能充分利用各種中繼資料的優勢，進行基于Web 的資料交換和再利用。RDF解決的是如何采用XML标準文法無二義性地描述資源對象的問題，使得所描述的資源的中繼資料資訊成為機器可了解的資訊。如果把XML看作為一種标準化的中繼資料文法規範的話，那麼RDF就可以看作為一種标準化的中繼資料語義描述規範。Rdfschema使用一種機器可以了解的體系來定義描述資源的詞彙，其目的是提供詞彙嵌入的機制或架構，在該架構下多種詞彙可以內建在一起實作對Web資源的描述。

第四層：“本體詞彙”層。

“本體詞彙”，（外語：Ontology vocabulary）。該層是在RDF(S）基礎上定義的概念及其關系的抽象描述，用于描述應用領域的知識，描述各類資源及資源之間的關系，實作對詞彙表的擴充。在這一層，使用者不僅可以定義概念而且可以定義概念之間豐富的關系。

第五至七層：Logic、Proof、Trust。Logic負責提供公理和推理規則，而Logic一旦建立，便可以通過邏輯推理對資源、資源之間的關系以及推理結果進行驗證，證明其有效性。通過Proof交換以及數字簽名，建立一定的信任關系，進而證明語義網輸出的可靠性以及其是否符合使用者的要求。

語義網筆記（一）初識語義網系列目的

目錄

系列目的

語義網的動機

語義網設計原則

語義網的基礎技術

語義網的網際網路體系結構

語義網技術

顯式中繼資料

本體

邏輯

語義網分層蛋糕

繼續閱讀

【Semantic Web】從G. Antoniou等人視角看語義網（一）語義網願景

jena SPARQL查詢的簡單應用

語義網筆記（三）查詢語義網本篇内容

基于語義網的自動問答系統實作

Tbox與Abox

Jena簡介

gStore圖資料庫管理系統安裝指南系統要求項目位址安裝步驟對比執行個體參考文獻

常見OWL推理機概述

語義網應用執行個體

求教語義網知識圖譜大神

Protege-OWL API中文版（自己翻譯的）

eclipse中使用Jena解析本體檔案

Semantic Web下的資料內建

WebMagic Java 爬蟲的簡單應用

SPARQL查詢內建python腳本及jena簡介

語義網筆記（一） 初識語義網系列目的

目錄

系列目的

語義網的動機

語義網設計原則

語義網的基礎技術

語義網的網際網路體系結構

語義網技術

顯式中繼資料

本體

邏輯

語義網分層蛋糕

繼續閱讀

語義網筆記（一）初識語義網系列目的