天天看點

從感覺到認知:淺談知識賦能自然語言處理

引言

例子1:我用小号試探男友,他上當了。

例子2 奧巴馬是美國__

機器真的能了解小号是什麼意思嗎,機器真的能預測出奧巴馬是美國前總統嗎?事實上,自然語言具有創新性、遞歸性、多義性、主觀性、社會性等特點,資料驅動的模型由于缺乏結構化的知識,在很多場景會鬧出大笑話。從感覺到認知是機器具備認知智能,進而實作推理、規劃乃至聯想和創作,在一定程度上需要一個充滿知識的大腦,這個大腦可以使[知識圖譜]()或[認知概念圖譜](),也可以是常識庫等。

本位旨在梳理知識賦能自然語言處理的相關工作,并分析以下幾個問題:

  1. 知識能幫助文本表示學習嗎?
  2. 為什麼知識能提升某些下遊任務?
  3. 如何自動擷取知識?

知識賦能文本表示學習

在NLP進入預訓練時代後,如何引入知識增強預訓練效果成為了一個熱門方向,事實上知識的引入對文本表示學習是正向增益的,下面介紹幾個典型的知識賦能文本表示學習的工作。

ERNIE-baidu (ACL2019,AAAI2020)[1] [2]

百度提出的通過多種次元mask和持續學習的預訓練架構,此模型實測對學習率較為敏感,需要大學習率才能取得較好結果,且訓練難度比BERT大。

從感覺到認知:淺談知識賦能自然語言處理

ERNIE-tsinghua(ACL2019)[3]

清華提出的引入知識圖譜的預訓練模型,此模型過于複雜,雖然效果較好,然不太實用。

從感覺到認知:淺談知識賦能自然語言處理

K-BERT(AAAI2020)[4]

清華大學和騰訊的學者提出的K-BERT模型。學者們針對知識和文本的異構性和知識可能帶來的噪音,巧妙的将結構化知識圖譜資料以樹形結構引入文本中,并通過soft position和Visible Matrix 減少知識嵌入的噪音,并在多個資料集取得了較好的效果

從感覺到認知:淺談知識賦能自然語言處理

KnowBERT(EMNLP2019)[5]

Allen Institute 學者提出KnowBERT,此方法主要通過實體識别和實體連接配接将知識圖譜結構化資料引入預訓練過程,本質上是一個多任務學習過程。

從感覺到認知:淺談知識賦能自然語言處理

SemBERT (AAAI2020)[6]

上海交大的學者提出SemBERT,核心想法是引入Semantic Role Labeling資訊增強文本表征學習。

從感覺到認知:淺談知識賦能自然語言處理

BERT-MK(AAAI2020)[7]

上述模型大多數并不能完全引入知識圖譜的結構化資訊,華為學者在醫療領域提出了BERT-MK,此模型主要通過将知識圖譜子圖構造成序列的方式輸入Transformer,這也是亮點之一,本人認為模型主體本質上和清華的ERNIE并無太大差別。

從感覺到認知:淺談知識賦能自然語言處理

KEPLER [8]

清華的學者提出了KEPLER模型,将文本表示學習和知識圖譜表示學習聯合成多任務學習,在entity typing和relation classification上取得較好效果,本質上仍是多任務學習,方法比華為提出的BERT-MK模型簡單。

從感覺到認知:淺談知識賦能自然語言處理

K-IL(AAAI2020)[9]

南加州大學學者提出了基于注意力機制的知識嵌入表示學習,本文動機明确,行文流暢,引入的領域知識增強了文本的概念化表征。

從感覺到認知:淺談知識賦能自然語言處理

JOINER[10]

知識和文本表示學習中,一直存在需要多少文本或需要多少知識的問題,事實上文本和知識的表示學習一個互相增益的過程,弗裡堡大學學者提出了JOINER, 通過向量空間正則化的方式控制文本和知識之間共享的特征,并細緻分析了學習的效果,有一定的借鑒意義。

Pretrained Encyclopedia(ICLR2020)[11]

同樣是将知識引入預訓練模型,Facebook 學者提出了一個簡單有效的方法,替換實體為同類型下不同的實體。

從感覺到認知:淺談知識賦能自然語言處理

為什麼需要知識

大多數學者認為,由于資料驅動的表示學習缺乏對常識的認知、對數值的推理導緻缺乏一定的泛化能力。南加州大學學者在論文“Do Nuclear Submarines Have Nuclear Captains ? A Challenge Dataset for Commonsense Reasoning over Adjectives and Objects(EMNLP2019)“釋出了一個新的資料集,且實證證明預訓練語言模型在常識推理上的效果遠低于預期,知識是是不可或缺的。此外,慕尼黑大學學者發表論文"BERT is Not a Knowledge Base (Yet): Factual Knowledge vs. Name-Based Reasoning in Unsupervised QA Nina", 他們實證發現,将簡單的fact預測樣本去掉,基于BERT的預訓練模型幾乎無法獲得正确的結果,同時他們提出将實體替換成實體向量的方式引入知識,取得一定的收益。西湖大學和華盛頓大學學者在論文”Evaluating Commonsense in Pre-trained Language Models(AAAI2020)" 也發現目前的預訓練模型在較難的樣本中幾乎無法做出正确的預測。盡管學者都意識到知識的重要性,然而如何擷取知識仍然面臨嚴峻挑戰。傳統的知識抽取通常基于資訊抽取,詳見

Rethinking Information Extraction

。然而資訊抽取通常需要預定義schema,且對于常識知識或更為細粒度的知識,現有的模型仍面臨嚴峻挑戰。随着預訓練模型的不斷發展,不少學者開始嘗試基于預訓練模型直接抽取知識。

自動學習知識和應用

Allen Institute 學者率先在論文" COMET: Commonsense Transformers for Automatic Knowledge Graph Construction(ACL2019)" 提出基于Transformer的知識抽取模型。緊接着,Facebook學者在論文"Language Models as Knowledge Bases?(EMNLP2019)" 提出了基于BERT構造完形填空的方式抽取知識,并釋出了第一個資料集LAMA資料。卡耐基梅隆大學在論文”How can we know what language model know ? “改進了從預訓練模型中提取知識的方法,他們通過基于mining 和paraphrasing的方式提升了生成提示候選(prompts)的品質,且在LAMA 資料及上取得更好的效果。既然能自動抽取知識了,抽取的知識能否直接賦能應用呢?早在2018年,馬薩諸塞大學安姆斯特分校學者在論文”Building Dynamic Knowledge Graphs from Text using Machine Reading Comprehension(ICLR2018)“ 提出通過從文本建構動态知識圖譜的方式來提升機器閱讀了解的性能,加州伯克利分校學者在論文”Neural Module Networks for Reasoning over Text“提出結合argument抽取和symbolic reasoning的方法進一步提升數值推理型閱讀了解,此文本質上也是進行文本結構化然後基于symbolic推理。近期,CMU學者在論文"Differentiable Reasoning over a Virtual Knowledge Base(ICLR2020)" 提出了将文本通過稀疏tfidf 圖和最大内積搜尋的方式構造虛拟知識圖譜,在閱讀了解上取得了較好效果。此外,UIUC學者在論文"Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agent Reinforcement Learning Approach(AAAI2020)"提出了基于文本輔助的知識圖譜推理模型,主要通過兩個agent的強化學習算法實作文本中的資訊抽取和圖譜推理任務,方法較為新穎有趣。

思考

  1. 知識賦能文本。 現有的融合知識的預訓練模型大多數并不能考慮結構化先驗資訊,大多通過采樣的方式引入知識,如何盡可能的保留知識的結構層次資訊,同時減少噪音的引入,如何引入邏輯知識到預訓練模型,如何提高預訓練模型的效率,都是值得思考的方向。 從業務角度,知識賦能文本預訓練,最為直接的方式是pipeline的模式,即離線預訓練得到知識表征,将知識表征引入預訓練模型,在一定程度上會降低模型複雜度并提升性能。
  2. 自動化本體建構。預訓練模型可以學到一定的知識,然而很多知識會存在重複、歧義等問題,如何在此基礎上進行自動化本體建構,合并重複内容,也是值得思考的方向。從業務角度,基于預訓練模型的知識抽取式資訊抽取的一種補充,然而實際落地還很遙遠。

[1]ERNIE: Enhanced Representation through Knowledge Integration

[2]ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

[3]ERNIE: Enhanced Language Representation with Informative Entities

[4]K-BERT: Enabling Language Representation with Knowledge Graph

[5]Knowledge Enhanced Contextual Word Representations

[6]Semantics-aware BERT for Language Understanding

[7]Integrating Graph Contextualized Knowledge into Pre-trained Language Models

[8]KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

[9]Knowledge Infused Learning (K-IL): Towards Deep Incorporation of Knowledge in Deep Learning

[10]Revisiting Text and Knowledge Graph Joint Embeddings : The Amount of Shared Information Matters

[11]Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

繼續閱讀