天天看點

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context

  • 基本資訊
  • 研究目的
  • 相關工作
  • 方法
  • 實驗
  • 結論
  • Notes

基本資訊

Authors:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

Year:2019

From:n/a

研究目的

提出一個Transformer-XL模型,可以模組化長距離依賴,解決句子分割的時候不考慮句子上下文(自然邊界)的問題

相關工作

  • 語言模組化的提升方向
    1. 第一種是設計新結構來模組化來更好地encode the context
    2. 第二種是提升歸一化和優化算法
    3. 第三種是加速softmax的計算
    4. 第四種是enriching the outputdistribution family
  • 為了在語言模組化中capture long-range context
    1. context representations are manually defined
    2. rely ondocument-level topics learned from data
  • 改變LSTM
    1. 更好的初始化
    2. additional loss signal
    3. ugmented memory structure
    4. modify the internal architecture of RNNs to ease the optimization

方法

  1. Segment-Level Recurrence with StateReuse
    《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes
    《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes
    這個方法會cache一系列的隐層狀态h,這一系列的大小是預設的M。論文中的實驗部分M等于segment length。
  2. Relative Positional Encodings

    R ∈ R L m a x × d R\in \mathbb{R}^{L_{max} \times d} R∈RLmax​×d,這就是相對位置編碼的矩陣, R i R_i Ri​表示相對距離為i

    《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

    以前沒有information to distinguish the positional difference x r , j x_{r,j} xr,j​和 x r + 1 , j x_{r+1,j} xr+1,j​

    對于絕對位置編碼有三處改變

    《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes
    《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes
  • R i − j R_{i - j} Ri−j​
  • u和v是兩個可訓練的變量
  • 把 W k W_k Wk​拆分成 W k , E 基 于 内 容 的 k e y W_{k,E}基于内容的key Wk,E​基于内容的key和 W k , R W_{k,R} Wk,R​基于位置的key

綜合公式

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

實驗

語言模組化

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

消融實驗

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

結論

  1. 提出了一個Transformer-XL,把循環的機制引入Transformer中,更全面地利用上下文資訊,同時大大地加快了推斷的速度

Notes

n/a

繼續閱讀