摘要
本文基于接着多語義比對模型[1]和BERT比對模型[2]介紹一些多元度語義互動比對模型,包括2017 BiMPM模型[3]和騰訊出品的2018 MIX[4]。這些方法的核心特征都是在多語義網絡的基礎上,從多視角提出新增特征次元,新增多信道資訊交叉,構造attention等方式,而後拼接特征或者通過卷積變換通道方式整合特征,一般效果都會超過之前介紹的ESIM模型[1]。本文結合實際使用情況進行小結介紹。
1 BiMPM模型[3]
BiMPM模型全稱 Bilateral multi-perspective matching model, 為2017IJCAI論文。圖1是模型網絡架構圖,其基本繼承多語義模型多種方法的基本思想,采用Bi-LSTM來建構表示層。同時,采用了含參數的方式參與比對:
其中算不得新奇的一種有效手法是:BiMPM 使用詞級别和字元級别的詞向量,使得文本語義表示更加充分【
說明:這個還是比較常見的,實際應用還可以自行建構千萬級的無标簽資料先訓練一個字元以及詞語的word2vec模型,作為模型embedding的初始化,效果會更好】
下面詳細介紹其比對層的構造如圖2,其餘基本操作可參見本系列前述文章。這篇文章的特點在于充分利用了句子表示的語義:1、雙邊,對每一個step的輸出進行從p到q和從q到p的兩兩配對計算;2、多角度,在考慮句子間的互動關系時采用了4種不同的方式。
圖2 BIMPM模型比對層構造
(1)Full-Matching.:如圖2(a)所示是一個句子的表示即LSTM最後隐層輸出跟另一句的每個單詞輸出作比對,前向的LSTM是最後一個,後向的LSTM是第一個。
(2)Maxpooling-Matching:如圖2(b)句子P與另一個句子Q每一個隐藏層的輸出作比對,取最大值(最大池化)。
(3)Attentive-Matching:如圖2(c)利用句子P中單詞的embedding和另一個句子Q的各個單詞的embeddings分别計算餘弦相似度,然後用softmax歸一化做成attention權重,權重求和再進行帶參餘弦相似度計算。【
就有點類似ESIM的思想】
(4)Max-Attentive-Matching:如圖2(d)所示,與Attentive-Matching相似,先計算出attention的權重,
取其中權重最大的而不是權重求和,做相似度比對。
2 MIX模型[4]
騰訊出品必屬精品,2018KDD SOTA論文MIX: Multi-Channel Information Crossing for Text Matching 是來自騰訊 MIG 移動浏覽産品部和阿爾伯塔大學的研究者提出一種用于文本比對的新模型 MIX,這是一個多信道資訊交叉模型;騰訊使用有實際業務場景驗證:在 QQ 浏覽器搜尋直達業務使用中也表現出了優秀的性能,相對提升點選率 5.7%,是以理論實踐都倍兒棒。以下做一些介紹。
MIX 模型組合使用全局比對和局部比對技術,對兩個文本片段之間的相關性進行模組化,MIX 模型能夠有層次、多元度地描繪文本比對問題的本質,圖3是其示意圖。
圖3 MIX
MIX模型特點如下:
(1)如圖 3左上方Sentence B所發出的三個箭頭所示,為了考慮到單個詞語比對過程中存在的不準确性,句子被解析成不同粒度的文本片段,如一進制分詞、二進制分詞和三元分詞。用這種方式,MIX 通過找到文本片段最合适的語義表征(可以是單詞、短語或詞組)來改善局部比對的準确率;
(2)充分利用attention機制,其權重矩陣設計非常優秀,研究者提取文法資訊,如相對權重和詞性标注,據此在注意力信道中設計注意力矩陣,以封裝豐富的結構模式,而不是簡單的随機矩陣。文中使用的用詞的idf表示的詞權重attention、Part-of-Speech(PoS)權重資訊以及詞語所在的位置權重 均有其直接的意義。
(3)融合多通道,形成的4維矩陣而不是三維,使用3D卷積來融合多通道特征,其做法基本與圖像領域操作一緻,故而有人稱之為矩陣比對。
3 應用
BIMPM模型論文中給出的結果如圖4所示,
實際工業資料效果會在80%左右,一般比ESIM高一些。需要提示的是,
其訓練速度也是非常的慢,其attention所帶來的時耗并不亞于ESIM模型,一般數百萬資料訓練需要一周以上,實際使用需要謹慎選擇
。圖4 BIMPM模型效果展示
而關于MIX模型其效果實際工業資料不會低于ESIM和bimpm模型,應用中的問題是句子被解析以及多種權重構造輸入其實也是一個費勁的事情,實際應用可以根據需要減少其中一部分。
圖5 MIX模型效果
4 結語
本文介紹的兩篇多元度比對文章,總的來說核心思想還是多元度多視角進行互動計算,充分利用互動相似性建構attention,充分利用多種NLP領域有意義的做法建構權重,通過拼接或者卷積變換通道的方式進行特征合并,無出其外。
同時回首整個系列做法,BI-LSTM模型特點被充分應用,越往後模型越複雜訓練時間也會越長。
但是這些模型并未結合預訓練(如BERT或者早一些的GPT模型),也并未應用transformer機制,是以可見這個方向仍然還有提升空間,本人認為這是未來的一個很好的繼續研究方向。
參考文獻
[1]多語義比對模型:
debuluoyi:文本比對方法系列––多語義比對模型zhuanlan.zhihu.com
[2]BERT比對模型:
debuluoyi:文本比對方法系列––BERT比對模型zhuanlan.zhihu.com
[3]BiMPM: Wang, Z., Hamza, W., & Florian, R. (2017). Bilateral multi-perspective matching for natural language sentences.arXiv preprint arXiv:1702.03814.
[4]騰訊MIX: Chen, H., Han, F. X., Niu, D., Liu, D., Lai, K., Wu, C., & Xu, Y. (2018, July). Mix: Multi-channel information crossing for text matching. InProceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining(pp. 110-119). ACM.
【文本比對系列終于寫完了!基本把本人實際做過的都總結了一遍。
下一個系列是
知識圖譜系列】