天天看點

Transformer模型--Attention機制

Transformer模型來源于谷歌2017年的一篇文章(Attention is all you need)。在現有的Encoder-Decoder架構中,都是基于CNN或者RNN來實作的。而Transformer模型彙中抛棄了CNN和RNN,隻使用了Attention來實作。是以Transformer是一個完全基于注意力機制的Encoder-Decoder模型。

在Transformer模型中引入了self-Attention這一概念,Transformer的整個架構就是疊層的self-Attention和全連接配接層。具體的結構如下:

Transformer模型--Attention機制

上面結構中的左半部分是Encoder,右半部分是Decoder。

創新點:Transformer隻采用了attention機制。不像傳統的encoder-decoder的模型需要結合RNN或者CNN來使用。創新之處在于使用了scaled Dot-product Attention和Multi-Head Attention。

将Transformer解釋的最容易懂的還是The illustrated transformer

然後哈佛大學也給出了詳細的pytorch版本的代碼,有jupyter notebook詳細的解釋,看完也會有别樣的收獲。

附:深度學習中的注意力機制(2017版)

《Attention is All You Need》淺讀(簡介+代碼)

未完待續,還會再更這一部分的内容,因為我還沒咋了解透。。。

繼續閱讀