天天看点

知识图谱|前世今生

论文来源:基于深度学习的高血压知识图谱构建研究_张志剑

下载链接:

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202002&filename=1020030883.nh&v=8VCMvnc7vkQeYbGRA%25mmd2B3kPJsOm2MFKGNu36VHWuEK6401etqU1nP9LmsObnEu0ocu

知识图谱|前世今生

当今知识图谱本身是一个具有属性的实体通过关系链接而成的知识网络。Google 所提出的知识图谱包含模式层和数据层两层结构,其中模式层是知识图谱的骨架,是一种概念上的规范形式。通常使用本体为载体进行表示、存储和推理。模式层更侧重于概念与概念间的关系,模式层可以作为知识图谱的框架,为领域知识提供高效的规范和约束,为数据层提供一种形式化的表达方式。

知识图谱的构建过程就是将互联网上海量异构数据进行整合和抽取,提取精准的知识,并将知识低冗余的进行存储。

知识的存储涉及知识的表示,联结主义的知识更容易被获取、集成和推理。鉴于此,知识图谱基于联结主义的资源描述框架(Resource Description Framework, RDF)来构建, RDF 又通过三元组{主体,谓语,客体}来描述知识。在构建过程中,主体及客体为命名实体,谓语用关系或属性来表示,形成{头实体,关系&属性,尾实体}的表示形式。因此,如何在非结构化文本中寻找实体,并对两个实体间的关系及属性进行分类是知识图谱构建的核心,该关键步骤也被称为知识抽取。

知识抽取是将承载于文本、图像、音频和视频中的非结构化知识进行提取,生成结构化、正确、低冗余的三元组。知识抽取主要分为两个步骤:命名实体识别和关系抽取(Relation Extraction, RE)。

基于机器学习的抽取方法:
Socher 等人使用递归神经网络(Recurrent Neural Network, RNN)进行抽取,在句法树的节点上放置向量或矩阵,从而考虑到了句子的句法结构信息,模型取得了较好的抽取结果。
Liu 等人将卷积神经网络引入关系分类任务中[36],卷积神经网络不但通过卷积层可以提高运算效率,并且兼容高速的并行计算。然而卷积神经网络无法捕获句子的长距离特征,导致关系抽取精度较低。
Zhou 等人利用基于注意力机制的双向长短期记忆神经网络(Attention Bi-directional Long Short Term Memory, Att-BiLSTM)解决了现有关系抽取中过度依赖词汇资源且无法区分每个词重要程度的问题。

命名实体识别(Named Entity Recognition, NER)方法大致可以分为三类:基于规则的方法、基于统计模型的方法以及基于深度学习的方法。

基于规则的方法利用标点符号、关键词、位置词、方向词等特征,人工构造有限规则,通过模板匹配进行命名实体识别。

基于规则的命名实体识别方法
Collins 等首先给出种子规则集;然后利用无监督学习方法对种子规则集进行训练,进而得到规模更大的规则集;最后,利用规则集对语料进行命名实体识别。
Tan 等利用语料的上下文规则建立规则库,并基于此对中文地名进行识别。
王宁等通过对中文金融新闻文本的深入分析,得到公司名的结构特征及其上下文信息,在建立公司名识别规则库的基础上,提出基于两次扫描过程的识别方法。上述方法在开放测试中的准确率达到 62.8%,召回率达到 62.1%。
周昆首先建立了基于命名实体识别的中文分词模型;然后,在分词过程中,利用基于规则的方法对语料进行命名实体识别;最后,分析识别结果,生成新的规则,并更新规则库。
王昊提出基于层次模式匹配的命名实体识别方法,用以识别学术论文中的术语缩略语。

基于统计模型的方法利用统计模型对人工标注的语料进行学习,在给定命名实体类型库的基础上,对语料中的实体进行识别。该方法将命名实体识别问题转化为命名实体分类问题。常用于命名实体识别的统计模型有:决策树模型(Decision Tree, DT)、最大熵模型(Maximum Entropy, ME)、条件随机场(Conditional Random Field, CRF)、支持向量机(Support Vector Machine, SVM)、隐马尔科夫模型(Hidden Markov Model, HMM)等。

基于统计模型的命名实体识别方法
Georgios 等引入 C4.5 决策树模型从语料中识别人物名和机构名。
为了解决传统基于统计模型方法面临的语料规模有限且数据稀疏的问题,Ning 等引入最大熵模型对语料进行命名实体识别。
隋明爽等通过建立融合多特征的 CRF 模型,用以从生物医学文本中自动识别化学物质和疾病实体。
Fajar 等引入 SVM 模型,试图从《圣训集》印尼译本中识别讲述者的姓名。
Indira 等利用 HMM 模型从推特短文本中识别用户名、机构名以及位置信息。真实语料上的实验结果表明,该模型的 F1 值能够达到 64%以上。
评价:基于统计模型的方法需要利用较大规模的语料进行训练,而实际应用中可以用来命名实体识别的语料规模较小,上述矛盾导致该方法在进行规模较大的命名实体识别时显得力不从心。

基于深度学习的方法源于深度学习模型在自然语言处理(Natural Language Processing, NLP)领域广泛应用。深度学习模型的最大优势在于该模型利用词向量表示语料中的词,该做法一方面解决了高维向量空间带来的数据稀疏问题,另一方面词向量较之人工选择的特征具有更强的语义表达能力。因此,该模型被逐渐地引入到命名实体识别。

基于深度学习的命名实体识别方法
Peng 等受长短期记忆网络(Long Short Term Memory, LSTM)在中文分词方面表现优良的启发,提出了融合 LSTM 和 CRF 模型的命名实体识别方法,该方法较之传统方法的 F1 值提高了 5%。
针对现有命名实体方法面临的过分依赖手工标注语料的问题, Lample 等利用双向长短期记忆网络(Bi-directional Long Short Term Memory, Bi-LSTM)和CRF 混合模型,对融合少量标注语料和大量未标注语料进行联合训练。
Bharadwaj 等在 LSTM 模型的基础上,通过提取语素特征,在土耳其语等形态变化较为复杂的语言上取得了良好的命名实体识别效果。
Wu 等针对中文处方字迹潦草、难以辨识等问题,利用引入注意力机制的 LSTM 和 CRF 混合模型进行处方命名实体识别。
此外,卷积神经网络(Convolutional Neural Network, CNN)、混合神经网络(Hybrid Neural Network, HNN)等深度学习模型亦被广泛应用于命名实体识别,并取得了较好的识别效果。

论文阅读为《基于深度学习的高血压知识图谱构建研究》_张志剑,故考虑医学领域命名实体识别研究:

医学领域命名实体识别研究
Yang 等人使用不同特征模板下的条件随机场,在电子病历上自动识别医学领域命名实体。
Xie 等人使用 Bi-LSTM 模型提取了社交媒体评论中包含的药物不良反应。
宓林晖等人使用 CRF 模型对临床医嘱进行实体识别。
龚乐君等人将领域词典和 CRF 模型相结合,从电子病历中提取相关实体。
李纲等人将词典和 BiLSTM-CRF 模型相结合,提取中文电子病历中的相关实体。
上述方法极大地推动了医学领域的命名实体识别研究,但从识别效果看,仍有较大的提升空间。

迁移学习侧重将已有的知识迁移应用于新的问题中,找到源域(已有知识的域)和目标域(要进行学习的域)之间的关联,并加以充分的利用。源域和目标域的具体关联方式是一个关键点,每种迁移学习方法都专注于处理特定的一类关联。现有的迁移学习方法可以划分为四类:

基于特征的迁移
源域和目标域含有一些交叉特征时,通过特征变换,将源域和目标域的特征变换到相同空间,使得该空间中源域数据与目标域数据具有相同的数据分布,进而使用传统的机器学习方法完成任务。
Pan 等人通过迁移成分分析方法,最小化两个数据领域中的分布差异,从而提高迁移效果;
Blitzer 等人提出一种结构对应学习方法(Structural Correspondin Learning,SCL),该方法将源域空间特有的部分特征映射到目标域空间内的轴特征上,然后使用该特征完成任务。
基于样本的迁移
通过调整源域与目标域相似数据的权重,使得与任务有一定关联的数据集信息迁移到该任务上,使得源域的数据可以重新在目标域中使用。
Dai 等人提出一种TrAdaBoost 方法[46],该方法初始给每个样本一个权重,如果训练过程中辅助数据集中的一个样本分类时发生错误,那么该样本和目标域样本有着较大差异,从而 TrAdaBoost算法会降低该样本所占权重,降低该样本对模型的影响。
Huang 等人提出一种核均值匹配方法(Kernel Mean Matching, KMM),该方法使用再生希尔伯特空间计算源域和目标域的协方差分布差异,并使用二次规划计算样本权重。
另一些研究人员从概率分布角度出发计算源域和目标域的样本权重,取得了相应的进展。
基于模型的迁移
是将源域的模型的参数共享给目标域,也就是将之前在源域中通过大量数据训练好的模型应用到目标域上进行预测。
Zhao 等人提出一种迁移学习嵌入式决策树(Transfer learning EMbedded Decision Tree, TransEMDT)方法,该方法通过 K-Means 聚类算法计算目标域决策树模型,随后更新决策树,当模型收敛时就找到了最优化的标定参数。
Nater 等人对 SVM 进行改进,该方法将源域和目标域共享部分和不同域的区别特征相加作为 SVM 的权重向量,从而将模型参数部分重用。
更多的研究人员将基于模型的迁移方法应用于深度学习模型中,取得了较好的结果。
基于关系的迁移
该方法侧重于源域和目标域样本间的关系,因为该方法限制较多,使用场景有限,所以相关研究较少。仅有的一些研究围绕着马尔科夫逻辑网(Markov Logic Net,MLN)来描述相关的关系

继续阅读