一、Background
實體和關系抽取是從文本中抽取命名實體以及識别實體之間的語義關系。傳統的系統是以流水線的方法執行這兩個任務:首先進行命名實體識别,然後關系抽取。這種分離的架構使得處理兩個任務的方式比較靈活性,但是卻忽略了彼此的相關性。聯合學習架構是關聯NER和RC的有效方法,同時可以避免級聯錯誤。但是目前現有的大多數系統都是基于特征工程的,需要花費大量人力時間建構特征。為了減少人工特征,Miwa and Bansal 提出了端到端的神經網絡模型,但是檢測實體時,忽略了标簽之間的長距離依賴關系。
二、Motivation
是以,作者基于以下的兩點考慮提出了混合網絡。
- 捕捉NER和RC的相關性。
-
端到端,減少手工特征。
NER和RC共享雙向LSTM層,将每個詞進行編碼得到該詞的上下文表示。盡管雙向LSTM可以捕捉到每個詞的長距離依賴關系,但是獨立地輸出每個标簽,未考慮到标簽的依賴關系。是以,作者采用了另外一個LSTM結構顯示地模組化标簽關系,與NN的解碼方式相比,它可以捕捉到标簽之間的長距離依賴關系。至于關系分類,兩個實體之間的子句已被證明有效地反映了兩個實體之間的關系。并且,通過雙向LSTM獲得實體的上下文表示對識别實體關系也很有用。是以,作者采用CNN模型根據實體的上下文表示和子句資訊進行關系抽取。
三、Model
整個模型的架構如圖一所示。
- 第一層是雙向LSTM層,NER和RC共享該層,将詞向量序列編碼得到詞的上下文資訊。
- 命名實體識别子產品: 每個單詞都有一個标簽,标注機制為BILOS(Begin,Inside,Last,Outside,Single)。每個标簽包含實體中單詞的位置資訊。作者采用了LSTM網絡顯示地模組化了标簽互動關系。當預測詞t的實體标簽時,LSTM的輸入是:雙向LSTM的隐藏層狀态 h t h_t ht,前一個标簽預測向量 T t − 1 T_{t-1} Tt−1,LSTM前一個隐藏層狀态 s t − 1 s_{t-1} st−1。作者采用的LSTM與基本的LSTM相同,除了輸入門: i t = δ ( W x i h t + W h i s t − 1 + W t i T t − 1 + b i ) i_t=\delta(W_{xi}h_t+W_{hi}s_{t-1}+W_{ti}T_{t-1}+b_i) it=δ(Wxiht+Whist−1+WtiTt−1+bi),其中标簽預測向量T從隐藏狀态s轉換得到: T t = W t s s t + b t s T_t=W_{ts}s_t+b_{ts} Tt=Wtsst+bts,最終的softmax層基于标簽預測向量 T t T_t Tt計算标準化實體标簽機率: y t = W y T t + b y y_t=W_yT_t+b_y yt=WyTt+by, p t i = e x p ( y t i ) ∑ j = 1 n t e x p ( y t j ) p^i_t=\frac{exp(y^i_t)}{\sum_{j=1}^{nt}exp(y^j_t)} pti=∑j=1ntexp(ytj)exp(yti)
- 關系抽取子產品: 當識别實體的語義關系時,作者将實體的上下文資訊和實體間的子句資訊合并在一起,然後喂給CNN網絡: R = C N N ( [ h e 1 , w e 1 , w e 1 + 1 , . . . , w e 2 , h e 2 ] ) R=CNN([h_{e1},w_{e1},w_{e1+1},...,w_{e2},h_{e2}]) R=CNN([he1,we1,we1+1,...,we2,he2]),其中R是關系label, h e h_e he是實體詞的上下文資訊,w是詞向量。特别地,一個實體可能包含多個詞,那麼我們就把這些詞的隐藏層狀态求和作為整個實體的上下文資訊。
- 訓練和實作: NER的目标函數為: RC的目标函數: 首先訓練實體識别子產品,識别出實體和得到實體的表示,然後訓練RC子產品,根據實體的表示和實體間子句的關系進行關系分類。
四、Experiment
采用ACE05資料集,關系類型有6種粗粒度關系類型和1種其它關系,相同的關系但是實體相反的認為是不同類。比如,‘PART-WHOLE(e1,e2)’和‘PART-WHOLE(e2,e1)’是不同關系。是以總共有13種關系類别。
- Pipeline: 傳統的pipeline方法,将兩個任務分開做。
- Joint w/Global: 單模型同時進行NER和RC,大量手工特征。
- SPTree: 端到端的關系抽取模型,表示詞序列和依賴資訊。 消融實驗證明NER子產品的有效性: 關系抽取子產品的比較實驗:
五、Conclusion
與傳統的pipeline方法相比,作者提出的混合網絡不僅考慮了NER和RC之間的相關性,同時也考慮了實體标簽之間的長距離依賴關系,與目前的聯合學習相比,不用複雜的手工特征。本文的亮點在于命名實體識别沒有用CRF,反而是用了改進版的LSTM來捕捉标簽之間的關系,這用在pipeline的NER不知道有沒有提升?本文并不是完全意義上的統一,還是要先NER然後才RC,可以與2017ACL有一篇基于标注政策的聯合抽取進行對比。本文對 R ( e 1 , e 2 ) R(e_1,e_2) R(e1,e2)和對 R ( e 2 , e 1 ) R(e_2,e_1) R(e2,e1)的分類有點模糊。