天天看點

語義網筆記(一) 初識語義網系列目的

目錄

  • 系列目的
    • 語義網的動機
    • 語義網設計原則
    • 語義網的基礎技術
    • 語義網的網際網路體系結構
    • 語義網技術
      • 顯式中繼資料
      • 本體
      • 邏輯
    • 語義網分層蛋糕

系列目的

本系列基于教材《語義網基礎教程》,将一些架構和自己的想法列出。

語義網的動機

語義網出現的目的可以概括為:使計算機更能解讀網際網路。

目前的網際網路的内容無非就是文字,圖檔,視訊,聲音等等,誠然這些媒體是很有用的,但是人們也就是借助搜尋引擎,索引關鍵詞,将資訊從伺服器傳輸到用戶端而已。機器并不能了解網站上的内容,也就不能智能地進行選擇,組合,聚集資訊。語義網的出現就是為了解決這種傻瓜式索引。

語義網設計原則

  1. 使得結構化和半結構化的資料以标準化的格式在網際網路上可用
  2. 不僅制造資料集,還建立網際網路上可解讀的個體資料元素及其關系
  3. 使用形式化模型來描述這些資料的隐含語義,使得這些隐含語義能夠被機器處理

以上有一點需要說明,也就是目前網際網路的資料來源,也就是資料庫,他們實際上存在着大量結構化和半結構化的資料,隻不過轉為HTML語言的過程中都丢失了。

語義網的基礎技術

基于以上三個設計原則,有對應實作的技術

1.使用帶标簽的圖(labeled graph)作為對象及其關系的資料模型,圖中将對象作為節點,對象間的關系表示為邊。使用RDF(資源描述架構)的形式化模型表示。

2.使用網際網路辨別符(URI,統一資源辨別符)來辨別出現在資料集中的單個資料項以及它們之間的關系。這同樣反映在RDF的設計中。

3.使用本體(ontology)作為資料模型來形式化地表達資料地隐含語義。形式化模型有RDF schema(表達能力很弱)和OWL(網際網路本體語言)(表達能力強)。

語義網的網際網路體系結構

傳統網際網路是分布式的,“任何人可以說關于任何事的任何話”:任何人可以參考其他任何人的網頁,無需協商允許,或征求合适的位址或辨別符來使用。以下為一個場景:

A網站釋出了一個資料集

B網站獨立釋出了一個術語表

C網站決定用B網站釋出的術語來标注A網站的對象,而無需經過AB的允許。

實作上述體系結構需要三個步驟:

  1. 使用标準的文法來辨別資料和中繼資料
  2. 對中繼資料詞彙表取得足夠的共識,可以分享資料的隐含語義
  3. 使用第一步的格式和第二步的詞彙表來釋出大量的資料

語義網技術

顯式中繼資料

中繼資料(metadata) —詞的含義是:關于資料的資料。中繼資料捕獲資料的含義(meaning) 部分, 也就是語義網中所說的語義(semantic) —詞。

本體

英文術語“ontology”一詞源于哲學領域,且一直以來存在着許多不同的用法。在計算機科學領域,其核心意思是指一種模型,用于描述由一套對象類型(概念或者說類)、屬性以及關系類型所構成的世界。盡管不同的本體對于這些構成成分的确切稱謂有所不同,但它們卻都是一部本體不可或缺的基本要素。一般來說,人們所普遍期望的一點就是,本體之中模型的那些特征應當非常類似于相應的現實世界。

針對我們的目标,我們将使用 T.R.Gruber 的定義,這個定義後來由 R.Studer 修訂:一個本體是一個概念體系的一種顯式的、 形式化的歸約( An ontology is an explicit and formal specification of a conceptualization)

兩種本體語言

  1. RDF 模式是一種詞彙表描述語言,用來描述 RDF 資源的屬性和類,以及這些屬性和類的泛化層次的語義。此外,屬性的定義域和值域也可以定義。
  2. OWL 是一種描述屬性和類的更豐富的詞彙表描述語言,例如類之間的關系(比如不相交 )、基數(比如“恰好等于1”)、 相等、更加豐富的屬性類型定義、屬性的性質(比如對稱性 ),以及枚舉類等。

邏輯

邏輯是推理的前提和依據,一般給出簡單的規則“如果前提,那麼結論”,簡單推理比如A推出B,B推出C,則A能推出C。

語義網分層蛋糕

語義網筆記(一) 初識語義網系列目的

1998年,Tim在“Semantic Web Road map”中系統闡述了他對語義網的構想。其核心思想是通過為網頁添加機器可讀的中繼資料,讓智能機器能了解網頁上的内容,進而實作自動化資訊處理。這些中繼資料可以為人工智能提供不可或缺的資料和知識。在該文中,他提出分層實作的技術棧:(1)基礎的資料描述層,以資源描述架構(RDF)為語言;(2)模式(schema)層,允許對資料屬性進行描述,如“父類子類關系是可傳遞的”;(3)轉化語言,可以在多個資料源之間做互相翻譯和映射;(4)邏輯層,表達資料之間更複雜的關系,例如“父親是有孩子的男性”,也包括查詢語言,提供一個類似SQL的語言,把整個Web變成一個分布式的資料庫;(5)數字簽名,提供信任和驗證。這個路線圖後來演化為著名的“語義網層次蛋糕”

以下截取百度百科的一些分層說明

語義網筆記(一) 初識語義網系列目的

Berners-Lee于2000年提出了語義網的體系結構,并對此做了簡單的介紹。該體系結構共有七層,自下而上其各層功能逐漸增強。

第一層:“字元集”層。

Unicode和URI。Unicode是一個字元集,這個字元集中所有字元都用兩個位元組表示,可以表示65536個字元,基本上包括了世界上所有語言的字元。資料格式采用Unicode的好處就是它支援世界上所有主要語言的混合,并且可以同時進行檢索。URI(Uniform Resource Identifier),即統一資源定位符,用于唯一辨別網絡上的一個概念或資源。在語義網體系結構中,該層是整個語義網的基礎,其中Unicode負責處理資源的編碼,URI負責資源的辨別。

第二層:根标記語言層。

XML+NS+xmlschema。XML是一個精簡的标準通用标記語言,它綜合了标準通用标記語言的豐富功能與HTML的易用性,它允許使用者在文檔中加入任意的結構,而無需說明這些結構的含意。NS(Name Space)即命名空間,由URI索引确定,目的是為了避免不同的應用使用同樣的字元描述不同的事物。XML Schema是文檔類型定義(DTD)的替代品,它本身采用XML文法,但比DTD更加靈活,提供更多的資料類型,能更好地為有效的XML文檔服務并提供資料校驗機制。正是由于XML靈活的結構性、由URI索引的NS而帶來的資料可确定性以及XML Schema所提供的多種資料類型及檢驗機制,使其成為語義網體系結構的重要組成部分。該層負責從文法上表示資料的内容和結構,通過使用标準的語言将網絡資訊的表現形式、資料結構和内容分離。

第三層:“資源描述架構”層。

RDF+rdfschema。RDF是一種描述WWW上的資訊資源的一種語言,其目标是建立一種供多種中繼資料标準共存的架構。該架構能充分利用各種中繼資料的優勢,進行基于Web 的資料交換和再利用。RDF解決的是如何采用XML标準文法無二義性地描述資源對象的問題,使得所描述的資源的中繼資料資訊成為機器可了解的資訊。如果把XML看作為一種标準化的中繼資料文法規範的話,那麼RDF就可以看作為一種标準化的中繼資料語義描述規範。Rdfschema使用一種機器可以了解的體系來定義描述資源的詞彙,其目的是提供詞彙嵌入的機制或架構,在該架構下多種詞彙可以內建在一起實作對Web資源的描述。

第四層:“本體詞彙”層。

“本體詞彙”,(外語:Ontology vocabulary)。該層是在RDF(S)基礎上定義的概念及其關系的抽象描述,用于描述應用領域的知識,描述各類資源及資源之間的關系,實作對詞彙表的擴充。在這一層,使用者不僅可以定義概念而且可以定義概念之間豐富的關系。

第五至七層:Logic、Proof、Trust。Logic負責提供公理和推理規則,而Logic一旦建立,便可以通過邏輯推理對資源、資源之間的關系以及推理結果進行驗證,證明其有效性。通過Proof交換以及數字簽名,建立一定的信任關系,進而證明語義網輸出的可靠性以及其是否符合使用者的要求。