天天看点

语义网笔记(一) 初识语义网系列目的

目录

  • 系列目的
    • 语义网的动机
    • 语义网设计原则
    • 语义网的基础技术
    • 语义网的万维网体系结构
    • 语义网技术
      • 显式元数据
      • 本体
      • 逻辑
    • 语义网分层蛋糕

系列目的

本系列基于教材《语义网基础教程》,将一些框架和自己的想法列出。

语义网的动机

语义网出现的目的可以概括为:使计算机更能解读万维网。

当前的万维网的内容无非就是文字,图片,视频,声音等等,诚然这些媒体是很有用的,但是人们也就是借助搜索引擎,索引关键词,将信息从服务器传输到客户端而已。机器并不能理解网站上的内容,也就不能智能地进行选择,组合,聚集信息。语义网的出现就是为了解决这种傻瓜式索引。

语义网设计原则

  1. 使得结构化和半结构化的数据以标准化的格式在万维网上可用
  2. 不仅制造数据集,还创建万维网上可解读的个体数据元素及其关系
  3. 使用形式化模型来描述这些数据的隐含语义,使得这些隐含语义能够被机器处理

以上有一点需要说明,也就是当前万维网的数据来源,也就是数据库,他们实际上存在着大量结构化和半结构化的数据,只不过转为HTML语言的过程中都丢失了。

语义网的基础技术

基于以上三个设计原则,有对应实现的技术

1.使用带标签的图(labeled graph)作为对象及其关系的数据模型,图中将对象作为节点,对象间的关系表示为边。使用RDF(资源描述框架)的形式化模型表示。

2.使用万维网标识符(URI,统一资源标识符)来标识出现在数据集中的单个数据项以及它们之间的关系。这同样反映在RDF的设计中。

3.使用本体(ontology)作为数据模型来形式化地表达数据地隐含语义。形式化模型有RDF schema(表达能力很弱)和OWL(万维网本体语言)(表达能力强)。

语义网的万维网体系结构

传统万维网是分布式的,“任何人可以说关于任何事的任何话”:任何人可以参考其他任何人的网页,无需协商允许,或征求合适的地址或标识符来使用。以下为一个场景:

A网站发布了一个数据集

B网站独立发布了一个术语表

C网站决定用B网站发布的术语来标注A网站的对象,而无需经过AB的允许。

实现上述体系结构需要三个步骤:

  1. 使用标准的语法来标识数据和元数据
  2. 对元数据词汇表取得足够的共识,可以分享数据的隐含语义
  3. 使用第一步的格式和第二步的词汇表来发布大量的数据

语义网技术

显式元数据

元数据(metadata) —词的含义是:关于数据的数据。元数据捕获数据的含义(meaning) 部分, 也就是语义网中所说的语义(semantic) —词。

本体

英文术语“ontology”一词源于哲学领域,且一直以来存在着许多不同的用法。在计算机科学领域,其核心意思是指一种模型,用于描述由一套对象类型(概念或者说类)、属性以及关系类型所构成的世界。尽管不同的本体对于这些构成成分的确切称谓有所不同,但它们却都是一部本体不可或缺的基本要素。一般来说,人们所普遍期望的一点就是,本体之中模型的那些特征应当非常类似于相应的现实世界。

针对我们的目标,我们将使用 T.R.Gruber 的定义,这个定义后来由 R.Studer 修订:一个本体是一个概念体系的一种显式的、 形式化的归约( An ontology is an explicit and formal specification of a conceptualization)

两种本体语言

  1. RDF 模式是一种词汇表描述语言,用来描述 RDF 资源的属性和类,以及这些属性和类的泛化层次的语义。此外,属性的定义域和值域也可以定义。
  2. OWL 是一种描述属性和类的更丰富的词汇表描述语言,例如类之间的关系(比如不相交 )、基数(比如“恰好等于1”)、 相等、更加丰富的属性类型定义、属性的性质(比如对称性 ),以及枚举类等。

逻辑

逻辑是推理的前提和依据,一般给出简单的规则“如果前提,那么结论”,简单推理比如A推出B,B推出C,则A能推出C。

语义网分层蛋糕

语义网笔记(一) 初识语义网系列目的

1998年,Tim在“Semantic Web Road map”中系统阐述了他对语义网的构想。其核心思想是通过为网页添加机器可读的元数据,让智能机器能理解网页上的内容,从而实现自动化信息处理。这些元数据可以为人工智能提供不可或缺的数据和知识。在该文中,他提出分层实现的技术栈:(1)基础的数据描述层,以资源描述框架(RDF)为语言;(2)模式(schema)层,允许对数据属性进行描述,如“父类子类关系是可传递的”;(3)转化语言,可以在多个数据源之间做相互翻译和映射;(4)逻辑层,表达数据之间更复杂的关系,例如“父亲是有孩子的男性”,也包括查询语言,提供一个类似SQL的语言,把整个Web变成一个分布式的数据库;(5)数字签名,提供信任和验证。这个路线图后来演化为著名的“语义网层次蛋糕”

以下截取百度百科的一些分层说明

语义网笔记(一) 初识语义网系列目的

Berners-Lee于2000年提出了语义网的体系结构,并对此做了简单的介绍。该体系结构共有七层,自下而上其各层功能逐渐增强。

第一层:“字符集”层。

Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。

第二层:根标记语言层。

XML+NS+xmlschema。XML是一个精简的标准通用标记语言,它综合了标准通用标记语言的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是文档类型定义(DTD)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义网体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。

第三层:“资源描述框架”层。

RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。

第四层:“本体词汇”层。

“本体词汇”,(外语:Ontology vocabulary)。该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。

第五至七层:Logic、Proof、Trust。Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义网输出的可靠性以及其是否符合用户的要求。