《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

2023-07-05 13:32:28

Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context

基本資訊
研究目的
相關工作
方法
實驗
結論
Notes

基本資訊

Authors：Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

Year：2019

From：n/a

研究目的

提出一個Transformer-XL模型，可以模組化長距離依賴，解決句子分割的時候不考慮句子上下文(自然邊界)的問題

方法

Segment-Level Recurrence with StateReuse

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes
這個方法會cache一系列的隐層狀态h，這一系列的大小是預設的M。論文中的實驗部分M等于segment length。
Relative Positional Encodings

R ∈ R L m a x × d R\in \mathbb{R}^{L_{max} \times d} R∈RLmax×d，這就是相對位置編碼的矩陣， R i R_i Ri表示相對距離為i

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

以前沒有information to distinguish the positional difference x r , j x_{r,j} xr,j和 x r + 1 , j x_{r+1,j} xr+1,j

對于絕對位置編碼有三處改變

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

R i − j R_{i - j} Ri−j
u和v是兩個可訓練的變量
把 W k W_k Wk拆分成 W k , E 基于内容的 k e y W_{k,E}基于内容的key Wk,E基于内容的key和 W k , R W_{k,R} Wk,R基于位置的key

綜合公式

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

實驗

語言模組化

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

消融實驗

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

結論

提出了一個Transformer-XL，把循環的機制引入Transformer中，更全面地利用上下文資訊，同時大大地加快了推斷的速度

Notes

n/a

《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》論文閱讀筆記基本資訊研究目的相關工作方法實驗結論Notes

Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context

基本資訊

研究目的

相關工作

方法

實驗

結論

Notes

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普