天天看點

【Semantic Web】從G. Antoniou等人視角看語義網(一)語義網願景

       高速發展的網際網路已經成為人類曆史上影響最深遠、最廣泛的資訊傳播媒介,同時也推動着下一代網際網路技術的發展。1998年,網際網路的發明人Tim Berners-Lee 提出了語義網(Semantic Web)的設想。2001年,《科學美國人》雜志刊登題為“The Semantic Web”的科普文章,宣告了語義網的誕生。同年,網際網路聯盟(W3C)成立了一些列工作組,緻力于指定語義網技術規範。随着資源描述架構(RDF)、網際網路本體語言(OWL/OWL2)、RDF查詢語言(SPARQL)及規則交換格式(RIF)等一批技術規範被确立為推薦标準,語義網為網際網路上的知識表示、推理、交換和複用奠定了基礎。随之而來的是語義網技術在衆多領域的蓬勃發展和廣泛應用。

——A Semantic Web Primer,Third Edition,機械工業出版社,譯者序

學習筆記:G. Antoniou, Paul Groth et al. A Semantic Primer,Third Edition.

語義網動機及設計方案

       簡單來說,語義網的産生主要是為了是計算機有能力解讀網際網路上的資訊(to make the web more accessible to computers)。目前,網絡資訊檢索之後的資訊選擇、組合、聚集等工作必須由人本身來完成。從這個角度看,計算機在整個過程中扮演的角色确實十分有限:索引關鍵字,将資訊從伺服器端傳輸到用戶端,僅此而已。語義網希望使得網際網路更适合及其處理,使得網際網路上充滿機器可讀取、可了解的資料。這樣,搜尋将不再局限于關鍵字,而将變得更加語義化。

       語義網遵循如下設計原則:

  1. 使得結構化和半結構化的資料以标準化的格式在網際網路上可用;
  2. 不僅制造資料集,還建立網際網路上可解讀的個體資料元素及關系;
  3. 使用形式化模型來描述這些資料的隐含語義,使得這些隐含語義能夠被機器處理。

       這些設計原則已經被轉化為實際的技術:

  1. 使用帶标簽的圖(labeled graph)作為對象及其關系的資料模型,圖中将對象作為節點,對象間的關系表示為邊。使用資源描述架構(Resource Description Framework,RDF)的形式化模型來表示這種圖結構。
  2. 使用網際網路統一資源辨別符(Uniform Resource Indentifier,URL)來辨別出現在資料集中的單個資料項以及它們之間的關系。
  3. 使用本體(Ontology)作為資料模型來形式化地表達資料的隐含語義。諸如RDF模式(RDF schema,RDFs)和網際網路本體語言(Web Ontology Language,OWL)的形式化模型。

       為了正确的捕捉資料的隐含語義,諸如RDFs和OWL的形式化模型不僅是資料描述語言,實際上還是輕量級的知識表示(knowledge representation)。

語義網技術

  1. 中繼資料(metadata):關于資料的資料。中繼資料捕獲資料的含義 部分,也就是語義網中所說的語義(semantic)一詞。
  2. 本體(ontology):一個本體是一個概念體系的一種顯示的、形式化地歸約(An ontology is an explicit and formal specification of a conceptualization)。這裡使用T. R. Gruber的定義,後來由R. Studer修訂。通常,一個本體形式化地描述了一個論域。
  3. 邏輯:一般而言,邏輯首先提供形式語言來表達知識。其次,邏輯為我們提供廣泛了解的形式語義(well-understood formal semantics)。
  4. 人工智能:顯然,要實作語義網願景,所需的大部分技術是建立在人工智能領域工作基礎上的。

語義網的一個分層方法

【Semantic Web】從G. Antoniou等人視角看語義網(一)語義網願景

                     圖1 語義網的一個分層方法

  1. 1.Unicode和URI層:語義網的最底層。Unicode用來定義國際化、通用化的字元集。URI是統一資源辨別符(Uniform Resource Identifiers)的縮寫。在語義網環境中,所有需要描述的事物都稱之為資源,而每一個資源都用唯一的URI辨別。
  2. XML+NS+xmlschema層:語義網的基礎描述語言層。XML是語義網層次模型的基礎,它是網絡最通用的标簽式描述語言,命名空間(Name Space)為XML文檔中的結構化标記的定義和使用提供上下文機制,用以指明涵義,避免命名沖突。XML Schema為XML文檔提供了文法結構上的限制,保證XML文檔的完整性與有效性。
  3. RDF/RDF Schema層:RDF資源描述架構[53](Resource Description Framework)是一種用于表達網上資源的語言。RDF層的功能就在于表達豐富的網上資訊資源,是建構語義網這棟大廈的砂石磚塊。RDF Schema則為RDF更豐富的結構表達提供了一套類型定義系統。
  4. 本體(Ontology)層:本體技術是語義網的核心。本體的功能就是提供網上互操作體之間關于資訊的共同了解,也就是“語義”。在語義Web的互動中,本體擔當着語義互操作的重要角色。實踐中,用RDF定義了網上資訊資源,再用本體定義了互操作的語義空間,就構成了一個基本的語義網應用環境。這一層有時還包括規則(Rule)子層。加入規則子層,可以提高本體描述能力,增強資訊的語義表達能力。規則子層還可以定義與具體應用相關的知識描述,提供個性化的私有描述。
  5. 邏輯(Logic)層:該層用以提供公理和推理規則,為智能推理提供基礎。
  6. 證明(Proof)層:證明層用于提供認證機制,執行邏輯層産生的規則。
  7. 信任(Trust)層:主要負責提供信任機制,保證資源的互動安全可靠。