系列目的

本系列基于教材《语义网基础教程》，将一些框架和自己的想法列出。

语义网的动机

语义网出现的目的可以概括为：使计算机更能解读万维网。

当前的万维网的内容无非就是文字，图片，视频，声音等等，诚然这些媒体是很有用的，但是人们也就是借助搜索引擎，索引关键词，将信息从服务器传输到客户端而已。机器并不能理解网站上的内容，也就不能智能地进行选择，组合，聚集信息。语义网的出现就是为了解决这种傻瓜式索引。

语义网设计原则

使得结构化和半结构化的数据以标准化的格式在万维网上可用
不仅制造数据集，还创建万维网上可解读的个体数据元素及其关系
使用形式化模型来描述这些数据的隐含语义，使得这些隐含语义能够被机器处理

以上有一点需要说明，也就是当前万维网的数据来源，也就是数据库，他们实际上存在着大量结构化和半结构化的数据，只不过转为HTML语言的过程中都丢失了。

语义网的基础技术

基于以上三个设计原则，有对应实现的技术

1.使用带标签的图（labeled graph）作为对象及其关系的数据模型，图中将对象作为节点，对象间的关系表示为边。使用RDF（资源描述框架）的形式化模型表示。

2.使用万维网标识符（URI，统一资源标识符）来标识出现在数据集中的单个数据项以及它们之间的关系。这同样反映在RDF的设计中。

3.使用本体（ontology）作为数据模型来形式化地表达数据地隐含语义。形式化模型有RDF schema（表达能力很弱）和OWL（万维网本体语言）（表达能力强）。

语义网的万维网体系结构

传统万维网是分布式的，“任何人可以说关于任何事的任何话”：任何人可以参考其他任何人的网页，无需协商允许，或征求合适的地址或标识符来使用。以下为一个场景：

A网站发布了一个数据集

B网站独立发布了一个术语表

C网站决定用B网站发布的术语来标注A网站的对象，而无需经过AB的允许。

实现上述体系结构需要三个步骤：

使用标准的语法来标识数据和元数据
对元数据词汇表取得足够的共识，可以分享数据的隐含语义
使用第一步的格式和第二步的词汇表来发布大量的数据

语义网技术

显式元数据

元数据（metadata) —词的含义是：关于数据的数据。元数据捕获数据的含义（meaning) 部分，也就是语义网中所说的语义（semantic) —词。

本体

英文术语“ontology”一词源于哲学领域，且一直以来存在着许多不同的用法。在计算机科学领域，其核心意思是指一种模型，用于描述由一套对象类型（概念或者说类）、属性以及关系类型所构成的世界。尽管不同的本体对于这些构成成分的确切称谓有所不同，但它们却都是一部本体不可或缺的基本要素。一般来说，人们所普遍期望的一点就是，本体之中模型的那些特征应当非常类似于相应的现实世界。

针对我们的目标，我们将使用 T.R.Gruber 的定义，这个定义后来由 R.Studer 修订：一个本体是一个概念体系的一种显式的、形式化的归约（ An ontology is an explicit and formal specification of a conceptualization)

两种本体语言

RDF 模式是一种词汇表描述语言，用来描述 RDF 资源的属性和类，以及这些属性和类的泛化层次的语义。此外，属性的定义域和值域也可以定义。
OWL 是一种描述属性和类的更丰富的词汇表描述语言，例如类之间的关系（比如不相交 )、基数（比如“恰好等于1”）、相等、更加丰富的属性类型定义、属性的性质（比如对称性 )，以及枚举类等。

逻辑

逻辑是推理的前提和依据，一般给出简单的规则“如果前提，那么结论”，简单推理比如A推出B，B推出C，则A能推出C。

语义网分层蛋糕

语义网笔记（一）初识语义网系列目的

1998年，Tim在“Semantic Web Road map”中系统阐述了他对语义网的构想。其核心思想是通过为网页添加机器可读的元数据，让智能机器能理解网页上的内容，从而实现自动化信息处理。这些元数据可以为人工智能提供不可或缺的数据和知识。在该文中，他提出分层实现的技术栈：(1)基础的数据描述层，以资源描述框架(RDF)为语言；(2)模式(schema)层，允许对数据属性进行描述，如“父类子类关系是可传递的”；(3)转化语言，可以在多个数据源之间做相互翻译和映射；(4)逻辑层，表达数据之间更复杂的关系，例如“父亲是有孩子的男性”，也包括查询语言，提供一个类似SQL的语言，把整个Web变成一个分布式的数据库；(5)数字签名，提供信任和验证。这个路线图后来演化为著名的“语义网层次蛋糕”

以下截取百度百科的一些分层说明

语义网笔记（一）初识语义网系列目的

Berners-Lee于2000年提出了语义网的体系结构，并对此做了简单的介绍。该体系结构共有七层，自下而上其各层功能逐渐增强。

第一层：“字符集”层。

Unicode和URI。Unicode是一个字符集，这个字符集中所有字符都用两个字节表示，可以表示65536个字符，基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合，并且可以同时进行检索。URI(Uniform Resource Identifier），即统一资源定位符，用于唯一标识网络上的一个概念或资源。在语义网体系结构中，该层是整个语义网的基础，其中Unicode负责处理资源的编码，URI负责资源的标识。

第二层：根标记语言层。

XML+NS+xmlschema。XML是一个精简的标准通用标记语言，它综合了标准通用标记语言的丰富功能与HTML的易用性，它允许用户在文档中加入任意的结构，而无需说明这些结构的含意。NS(Name Space）即命名空间，由URI索引确定，目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是文档类型定义（DTD）的替代品，它本身采用XML语法，但比DTD更加灵活，提供更多的数据类型，能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制，使其成为语义网体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构，通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。

第三层：“资源描述框架”层。

RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言，其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势，进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题，使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话，那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇，其目的是提供词汇嵌入的机制或框架，在该框架下多种词汇可以集成在一起实现对Web资源的描述。

第四层：“本体词汇”层。

“本体词汇”，（外语：Ontology vocabulary）。该层是在RDF(S）基础上定义的概念及其关系的抽象描述，用于描述应用领域的知识，描述各类资源及资源之间的关系，实现对词汇表的扩展。在这一层，用户不仅可以定义概念而且可以定义概念之间丰富的关系。

第五至七层：Logic、Proof、Trust。Logic负责提供公理和推理规则，而Logic一旦建立，便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证，证明其有效性。通过Proof交换以及数字签名，建立一定的信任关系，从而证明语义网输出的可靠性以及其是否符合用户的要求。

语义网笔记（一）初识语义网系列目的

目录

系列目的

语义网的动机

语义网设计原则

语义网的基础技术

语义网的万维网体系结构

语义网技术

显式元数据

本体

逻辑

语义网分层蛋糕

继续阅读

【Semantic Web】从G. Antoniou等人视角看语义网（一）语义网愿景

jena SPARQL查询的简单应用

语义网笔记（三）查询语义网本篇内容

基于语义网的自动问答系统实现

Tbox与Abox

Jena简介

gStore图数据库管理系统安装指南系统要求项目地址安装步骤对比实例参考文献

常见OWL推理机概述

语义网应用实例

求教语义网知识图谱大神

Protege-OWL API中文版（自己翻译的）

eclipse中使用Jena解析本体文件

Semantic Web下的数据集成

WebMagic Java 爬虫的简单应用

SPARQL查询集成python脚本及jena简介

语义网笔记（一） 初识语义网系列目的

目录

系列目的

语义网的动机

语义网设计原则

语义网的基础技术

语义网的万维网体系结构

语义网技术

显式元数据

本体

逻辑

语义网分层蛋糕

继续阅读

语义网笔记（一）初识语义网系列目的