天天看点

第一章 知识图谱概述知识图谱的基本概念知识图谱历史沿革知识图谱的研究意义知识图谱的应用价值知识图谱分类

知识图谱的基本概念

协议的知识图谱特指一类知识表示,本质上是一种大规模的语义网络。广义的知识图谱是大数据时代知识工程一系列技术的总称,在一定程度上指代大数据知识工程这一新兴学科

知识图谱的狭义概念

1、知识图谱作为语义网络的内涵

作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体(Entity),概念(concept)及其之间的各种语义关系

知识图谱概念

  1. 其是语义网络,这是知识图谱的本质
  2. 其是大规模的,这是知识图谱和传统语义网络的根本区别

语义网络是一宗以图形化形式通过点和边表达知识的方式(那使用图数据库存储应该是适合语义网络的),其基本组成元素是点和边。语义网络的点可以是实体,概念和值

  • 实体:实体有时也会被称作对象(Object)或实例(Instance)
  • 概念:概念又被称为类别(Type)、类(Category或Class)等
  • 值:每个实体都有一定的属性值

应该借助三元存储模型来理解语义网络的结构,应该能更快有收获

知识图片与传统语义网络的区别

优点:

  1. 规模巨大:知识图谱具有巨大的规模。比如,Goole知识图谱咋2012年发布之初就有近5亿个实体和20亿多条关系。知识图谱的规模之所以如此巨大,是因为它强调对于实体的覆盖
  2. 语义丰富:一、知识图谱富含各类语义关系,一个典型的知识图谱,比如DBpedia,包含了1000多种常见的予以关系。关注不同语义关系的知识图谱互联到一起,就基本能涵盖现实世界中常见的语义关系。二、语义关系的建模多样,一个语义关系可以被赋予权重或者概率,从而可以更精准地表达语义。
  3. 质量精良:知识图谱是典型的大数据时代的产物。大数据的多源特性使得我们可以通过多个来源验证简单事实
  4. 结构友好:知识图谱通常可以表示为三元组,这是典型的图结构。三元组也可以借助RDF进行表示

缺点:

  1. 高质量模式的缺失:提升知识图谱的规模往往会付出质量方面的代价。为了让更多知识入库,势必要适当放宽对知识质量的要求:也就是允许模式(Schema)定义不完善,甚至缺失。模式定义不完善或者确实对知识图谱中的数据语义理解以及数据质量的控制提出了挑战
  2. 封闭世界假设不再成立:传统数据库与知识库的应用通常简历在封闭世界假设(Closed  World Assumption,CWA)基础上,CWA界定数据库或知识库中不存在的事实即为不成立的事实;但在开放性应用中不遵守这个假设:在这些应用中缺失的事实或知识不一定为假
  3. 知识图谱与本体的区别:人工智能领域提出本地的一个重要动机是,知识的共享和复用,以及数据的互联与互通。不同的自治系统只有遵循相同的"世界观",才可能形成类似的"理解"。语义网(SemanticWeb)领域发展除了很多本体定义语言与资源交换标准。因此计算机领域的本体侧重于表达认知的概念框架,表达概念之间的予以关系,往往也伴随着刻画概念的公里系统。本体刻画了人们认知一个领域的基本框架。在建设知识图谱的初期,模式(Schema)定义实质上在完成本体定义的任务

知识图谱的广义概念

知识图谱作为一种技术体系,指代大数据时代知识工程的一系列代表性技术的总和

作为一门学科,知识图谱属于人工智能范畴。人工智能的基本目标是让机器具备像人一样理性地思考或者形式能力;知识工程的和兴内容是建设专家系统,旨在让机器能够利用专家知识以及推理能力解决实际问题

在整个知识工程分支下,知识表示是一个非常重要的任务。为了有效应用知识,首先在计算机系统合理的表示知识,所以知识表示是发展知识工程的最关键问题之一。而知识表示的一个重要方式就是知识图谱。知识图谱只是知识表示的一种,还有语义网络,谓词逻辑,产生式规则,决策树,贝叶斯网络,马尔可夫逻辑网等

知识图谱历史沿革

讲述知识图谱的历史,不记笔记

知识图谱的研究意义

知识图谱是认知智能的基石

  1. 知识图片使机器语言认知。认知智能的核心能力之一是自然语言理解。机器理解自然语言需要有类似知识图谱这样的背景知识
  2. 知识图谱赋能可解释人工智能
  3. 知识有助于增强机器学习的能力

知识引导称为解决问题的重要方式之一

知识图谱的应用价值

数据分析

大数据的精准与精细分析需要知识图谱

智慧搜索

搜索未来的趋势是一切皆可搜索,并且搜索必达,为了应对这些挑战,需要简历知识图谱之类的各类知识库

智能推荐

自然人机交互

决策支持

知识图谱分类

知识图谱中的知识分类

  1. 事实知识(Factual Knowledge)。事实知识是关于某个特定实体的基本事实
  2. 概念知识(Taxonomy Knowledge)概念知识分为两类:一、实体与概念之间的类属关系(isA关系);二、子概念和父概念之间的子类关系
  3. 词汇知识(Lexical Knowledge)词汇知识主要包含实体与词汇之间的关系(实体的命名,称谓,英文名等)以及词汇之间的关系(同义关系,反义关系、缩略词关系、上下位词关系)
  4. 常识知识(Commonsense Knowledge)常识是人类通过身体与世界交互而积累下的经验与知识,在人们交流是无需言明就能理解的知识。常识知识的基本特点是,每人都知道,所以很少出现在文本里,面向文本的信息抽取方法对常识的获取显得无能为力。典型的常识知识图谱包括Cyc,ConceptNet等

知识图谱的领域特性

随着近几年知识图谱技术的进步,其研究与落地日益从通用领域转向特定领域和特定行业,于是就有了领域或行业知识图谱(Domain-specific Knowledge Graph,DKG);其和GKG(General-purpose Knowledge Graph,通用知识图谱)之间有显著区别与联系

DKG与GKG的区别

DKG GKG
知识表示 广度
深度
粒度
知识获取 质量要求 苛刻
专家参与 重度 轻度
自动化程度
知识应用 推理链条
应用复杂性 复杂 简单

DKG与GKG的关系体现在以下

  1. 领域知识是通过隐喻或者类比从通用知识中发展而来的
  2. GKG和DKG相互支撑:GKG可以给DKG提供高质量的种子事实,这些种子事实可以用作样本指导抽取模型训练。GKG也可以提供领域模式

越来越多的企业关注自身的知识图谱建设与应用,于是有了企业知识图谱(Enterprise Knowledge Graph),企业知识图片是指横贯企业各核心流程的知识图谱。与DKG和GKG相比,企业知识图谱具有“小,杂,专”的特点,小:企业本身的语料或数据规模比特定领域或者开放性领域要小很多,小数据意味着样本不足,难以有效训练知识获取模型,这为自动化知识获取带来巨大的挑战。专:每个企业往往有自身的业务特色。杂:企业知识图片所包含的领域众多

典型知识图谱

  1. Cyc
  2. wordNet
  3. GeoNames
  4. Google知识图谱
  5. Probase
  6. 搜狗知立方
  7. 百度知心
  8. CN-DBpedia

继续阅读