如何理解谷歌团队的机器翻译新作《Attention is all you need》

如题所述

推荐答案 2017-09-12

这是我找到的你看看吧
作者：谭旭
链接：https://www.zhihu.com/question/61077555/answer/183884003
来源：知乎
刚看到论文确实很震惊，FAIR在上个月刚祭出state of the art的convseq2seq，Google就用一堆attention予以回应，WMT en-de和en-fr都刷到了新的state of the art，而且这次不用RNN，不用CNN，只有attention，可谓大道至简。

算法细节可以参见paper，这里简单说下attention取得好的效果的直观感觉。传统的用RNN建模语言的时序特征，前面的单词信息都依次feed到后面一个单词，这种信息的堆叠感觉有点浪费，而且反而把信息糅杂在一起不好区分，虽然decoder阶段对每个单词对应的encoder输出位置做attention，但每个encoder输出已经夹杂了前面单词的信息。同时前面单词信息往后传，走的路径比较长，也就是long dependency的问题，虽然LSTM/GRU这种结构能一定程度上解决，但是毕竟不能完全去掉long dependency。而conv在处理dependency问题时，利用卷积的感受野receptive field，通过堆叠卷积层来扩大每个encoder输出位置所覆盖单词的范围，每个单词走的路径大致是logk(n)步，缩短了dependency的长度。而这篇论文的做法是直接用encoder或者decoder的层与层之间直接用attention，句子中的单词dependency长度最多只有1，减少了信息传输路径。而且这种attention的方式直接可以挖掘句子内部单词与单词的语义组合关系，将它作为一个语义整体，使得翻译时更好地利用单词组合甚至是短语的信息，更好地decode出语义匹配的目标语言单词，可参见论文Figure 3-5。
<img src="https://pic2.zhimg.com/v2-1c551cc1accef8d9ab0e09035dd2f4b1_b.png" data-rawwidth="943" data-rawheight="497" class="origin_image zh-lightbox-thumb" width="943" data-original="https://pic2.zhimg.com/v2-1c551cc1accef8d9ab0e09035dd2f4b1_r.png">

另外，计算复杂度方面，attention的方式不仅能够完全并行（训练阶段的encoder和decoder，inference阶段的encoder），和facebook的convseq2seq并行方式同理，而且计算量比convseq2seq还低，因为考虑到conv还有一个kernel的宽度k。比RNN既能减少计算量，又能增大并行方式，论文中table 1总结得很好。
<img src="https://pic4.zhimg.com/v2-9bde8704785e9c7e43a498c79ddd9b8f_b.png" data-rawwidth="912" data-rawheight="193" class="origin_image zh-lightbox-thumb" width="912" data-original="https://pic4.zhimg.com/v2-9bde8704785e9c7e43a498c79ddd9b8f_r.png">
Google大胆创新的地方就是完全能舍弃RNN/CNN的结构，从自然语言本身的特性出发，设计这种full attention的方式，而且还能炼丹调出state of the art的结果，估计接下来会有大量的attention变体甚至和RNN/CNN一起结合，应用在其它任务上。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WBeBXzjB7BWXB7z7zOX.html

相似回答

如何理解谷歌团队的机器翻译新作《Attention is all you need》答：Google大胆创新的地方就是完全能舍弃RNN/CNN的结构，从自然语言本身的特性出发，设计这种full attention的方式，而且还能炼丹调出state of the art的结果，估计接下来会有大量的attention变体甚至和RNN/CNN一起结合，应用在其它任务上。

入门| 文本摘要自动生成技术的前世今生答：时隔一个月，17年6月，Google团队发布了名为《Attention Is All You Need》的文章，即不用CNN和RNN单元，只用Self-Attention和Encoder-Decoder Attention，就完全实现了端到端的翻译任务，也是在WMT-14英德、英法翻译任务中，BLEU值达到了28.4和41.0的高分，因为同样可以并行计算，模型的训练及生成速度...

NLP预训练语言模型(三):逐步解析Transformer结构答：Transformer是近两三年非常火的一种适用于NLP领域的一种模型,本质上是Encoder-Decoder结构,所以多应用在机器翻译(输入一个句子输出一个句子)、语音识别(输入语音输出文字)、问答系统等领域。本文基于Attention is all you need这篇论文,讲解Transformer的结构,涉及到的图片均为论文中或经典图片,参数值均来自论文,具体问...

图解什么是 Transformer答：Transformer 是Google 团队在 17 年 6 月提出的 NLP 经典之作, 由Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。 Transformer 在机器翻译任务上的表现超过了 RNN,CNN,只用 encoder-decoder 和 attention 机制就能达到很好的效果,最大的优点是可以高效地并行化。Transformer 是一种...

位置编码答：Attention is All You Need中的位置编码部分由于我们的模型不包含递归和卷积,为了使模型利用序列中tokens的位置顺序,我们必须加入些关于序列的相对或绝对的位置信息。为此,我们将“位置编码”添加到编码器和解码器堆栈底部的输入embedding中。位置编码与embedding具有相同的维度 ,因此可以将两者相加。有许多位置编码的方...

Transformer中的自注意力机制Self-Attention及Qeury,Keys,Values_百度知...答：2017年，google机器翻译团队发表的《Attention is all you need》中大量使用了自注意力（self-attention）机制来学习文本表示。自注意力机制也成为了大家近期的研究热点，并在各种NLP任务上进行探索 [1] 。Seq2Seq中的Attention是在Decoder阶段，如果用在机器翻译中的话就是着重考虑输出与输入的对应关系...

自然语言处理综述答：而这些问题都在2017年发表的论文《Attention Is All You Need》[4]中得到有效解决。正是在这篇论文中,提出了Transformer模型。Transformer中抛弃了传统的复杂的CNN和RNN,整个网络结构完全由注意力机制组成。 Transformer最核心的内容是自注意力机制(Self-Attention),它是注意力机制(Attention)的变体。注意力的作用是从...

从图灵机到万物定理答：共同编织着科技与哲学的交织网。参考资料，如同星辰般点缀在探索的夜空中，照亮了我们前行的道路。深入理解Attention机制量子双缝实验的神秘之旅机器学习中的焦点：Attention Vaswani等人. Attention is all you need. NIPS 2017.量子力学，微观宇宙的乐章哥德尔不完备性的哲学挑战 ...

常用NLP模型的简介答：Self-Attention: 第一次出现在Transformer，由于Transformer没有使用传统s2s所用的RNN或LSTM，所以自称Attention is all you need (You don't need RNN or LSTM)。Self-Attention和Attention的区别有很多，首先对它而言可以不需要decoder直接在encoder内完成自注意力，其次它没有关注序列信息，因此需要额外先...

大家正在搜

谷歌如何激发团队海洋之歌团队新作舌尖上的中国团队新作星露谷物语团队新作谷歌重新定义团队谷歌团队合作彩虹团队新作收获日团队新作直到黎明团队新作