Attention is all you need【论文笔记】

一、摘要

显性序列转导模型通常基于复杂的RNN或CNN模型，包括一个encoder和一个decoder。表现最好的模型通常也在encoder和decoder之间应用attention机制。我们提出一个新的简单的网络架构，单纯地基于attention机制，完全没用到RNN或CNN模型。两个机器翻译任务的实验表明，这些模型在质量上更优越，同时更易于并行化，并且需要更少的时间进行训练。

二、介绍

RNN、LSTM、GRU等模型在序列建模任务上表现很好，比如语言建模，机器翻译。这类递归模型沿着输入单词顺序地生成一系列的隐藏层状态。这种固有的顺序特性无法实现训练示例中的并行化，计算资源消耗大。即使通过 f a c t o r i z a t i o n t r i c k factorization\ trick factorization trick和 c o n d i t i o n a l c o m p u t a i o n conditional\ computaion conditional computaion可以提升效率，但是问题仍然存在。

本篇论文，作者提出了Transformer，一种模型结构不使用RNN，单纯依靠attention机制就可以捕捉到输入和输出之间的全局依赖关系。

三、背景

self-attention 也叫做 intra-attention，计算一个句子的表示时关联该句子的不同位置的信息。self-attention已经被成功应用于各种任务，阅读理解、自动摘要、文本蕴含等。端到端的内存网络基于递归的attention机制，在问答和语言建模任务上表现优秀。据我们所知，Transformer是第一个transduction模型，只依靠self-attention计算输入和输出的表示。

四、模型架构

Attention is all you need【论文笔记】

4.1 Encoder and Decoder Stacks

Encoder: encoder由6层堆叠而成。每一层有两个子层，第一个子层是multi-head self-attention机制，第二层是position-wise全连接前向网络。我们在两个子层中的每一个周围使用残余连接，然后是层归一化。因此，每一个子层的输出就是 L a y e r N o r m ( x + S u b l a y e r ( x ) ) LayerNorm(x+Sublayer(x)) LayerNorm(x+Sublayer(x))。为了利用这些残余连接，模型的每个子层的输出维度都为512.
Decoder: decoder也是由6层堆叠而成。每一层中与encoder相比，多了一层，对encoder堆叠的输出做multi-head attention。与encoder相似，每个子层使用residual connection，然后是layer normalization。我们还修改了decoder堆叠中的self-attention层，防止当前位置关注了后序位置的信息。这种掩码与输出嵌入偏移一个位置的事实相结合，确保了位置i的预测仅依赖于小于i的位置处的已知输出。

4.2 Attention

attention函数可以描述为将查询和一组键值对映射到输出的过程，其中查询，键，值，输出都是向量。输出计算为值的加权和，其中分配给每个值的权重由查询与相应键的兼容性函数计算。

Attention is all you need【论文笔记】

4.2.1 Scaled Dot-Product Attention

输入由 d k d_k dk维度的queries和keys组成，values的维度为 d v d_v dv。计算query和所有keys的点积，除以 d k \sqrt{d_k} dk

，然后通过softmax函数获得权重。

A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk

QKT)V

最长使用的两种注意力函数：加性注意力和点积注意力。加性注意力使用具有单个隐藏层的前馈网络来计算compatibility function。虽然这两者在理论复杂性上相似，但实际上点积更快，更节省空间，因为它可以使用高度优化的矩阵乘法来实现。

d k d_k dk比较小时两种attention性能差不多， d k d_k dk比较大时，加性注意力比没有缩放的点积注意力要好。我们怀疑，对于较大的 d k d_k dk 值，点积大幅增大，将softmax函数推进到具有极小梯度的区域。为了抵消这个影响，我们进行了 1 d k \frac{1}{\sqrt{d_k}} dk

1缩放。

4.2.2 Multi-Head Attention

对于 d m o d e l d_{model} dmodel 维度的keys，values，queries，我们发现线性映射keys，values，queries h h h次（不同的），学习线性映射到 d k , d k , d v d_k,d_k,d_v dk,dk,dv维度，这比单个attention是更有效的。每个keys，values，queries映射版本都会并行的经过attention，输出 d v d_v dv，然后经过concat，再一次的projected，输出最终的向量。

multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息。只用一个attention，平均就会抑制这种情况。

M u l t i H e a d ( Q , K , V ) = C o n c a t ( h e a d 1 , . . . , h e a d h ) W O MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O MultiHead(Q,K,V)=Concat(head1,...,headh)WO w h e r e h e a d i = A t t e n t i o n ( Q W i Q , K W i K , V W i V ) where\ head_i=Attention(QW^Q_i,KW^K_i,VW^V_i) where headi=Attention(QWiQ,KWiK,VWiV)

其中， W i Q ∈ R d m o d e l × d k , W i K ∈ R d m o d e l × d k , W i V ∈ R d m o d e l × d v , W O ∈ R h d v × d m o d e l W^Q_i\in R^{d_{model}\times d_k},W^K_i\in R^{d_{model}\times d_k},W^V_i\in R^{d_{model}\times d_v},W^O\in R^{hd_v\times d_{model}} WiQ∈Rdmodel×dk,WiK∈Rdmodel×dk,WiV∈Rdmodel×dv,WO∈Rhdv×dmodel。本篇论文中，采取 h = 8 , d k = d v = d m o d e l / h = 64 h=8,d_k=d_v=d_{model}/h=64 h=8,dk=dv=dmodel/h=64

4.2.3 Applications of Attention in our Model

在‘encoder-decoder attention’层，queries来自之前decoder的输出，keys和values来自encoder的输出。这允许decoder中的每个位置参与输入序列中的所有位置。这模仿了sequence-sequence模型中典型的encoder-decoder attention机制。
encoder包含self-attention层。对于self-attention层的所有key，values，queries都来自同一位置，是encoder前一层的输出。encoder中的每个位置都可以处理前一层中的所有位置信息。
类似地，decoder中的自注意层允许解码器中的每个位置参与解码器中的所有位置直到并包括该位置。我们需要防止解码器中的向左信息流以保持自回归属性。我们通过屏蔽（设置为-∞）softmax输入中与非法连接相对应的所有值来实现缩放点积注意。

4.3 Position-wise Feed-Forward Networks

除了attention子层，在encoder和decoder的每一层中都包含一个全连接前向网络，分别和相同地应用于每个位置。

F F N ( x ) = m a x ( 0 , x W 1 + b 1 ) W 2 + b 2 FFN(x)=max(0,xW_1+b_1)W_2+b_2 FFN(x)=max(0,xW1+b1)W2+b2

5.why self-attention

每一层的计算复杂度
计算并行化
长距离的依赖关系

6. Experiment

这里实验不再介绍

7. Conclusion

作者提出了Transformer，完全依赖于attention，没有用到RNN、CNN结构。训练速度快，并且结果是state-of-the-art的。

解析实现这里的博主讲得不错：http://blog.stupidme.me/transformer-attention-is-all-you-need/

Attention is all you need【论文笔记】

一、摘要

二、介绍

三、背景

四、模型架构

4.1 Encoder and Decoder Stacks

4.2 Attention

4.2.1 Scaled Dot-Product Attention

4.2.2 Multi-Head Attention

4.2.3 Applications of Attention in our Model

4.3 Position-wise Feed-Forward Networks

5.why self-attention

6. Experiment

7. Conclusion

继续阅读

elasticlunr.js 最新版本v0.6.7发布啦应用示例为什么你需要elasticlunr.js?

RNN/LSTM学习资料总结

Transformer系列：Classification --＞ ViT (ICLR2021)1. Motivation2. Method 3.Experiment

使用中文维基百科进行GloVe实验

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）一、理论简述二、测评三、Glove实现&R&python四、相关应用

GloVe与word2vec的区别，及GloVe的缺陷

更别致的词向量模型(一)：simpler glove

glove_python安装（避免编译错误）

如何使用PyTorch构建Transformer模型实现语言生成任务

python 分析qq聊天记录

[一起学BERT]（一）：BERT模型的原理基础Self-Attention机制理论Multi-head Self-Attention注意力机制位置编码Transformer理论BERT理论

ELMO BERT GPT

BERT、Elmo、GPT一、发展历史二、bert三、ERNIE四、GPT—transformer的decoder

如何使用Transformer模型实现语言分类任务

人工智能如何有效地运用于自然语言处理