Attention Is All You Need
约 359 字大约 1 分钟
2025-02-19
注意力机制(Attention)允许对依赖关系进行建模,而不用考虑它们在输入或输出序列中的距离。
自注意力(Self-attention,有时称为内注意力 intra-attention)是一种将单一序列不同位置相关联的注意力机制,可以计算序列的表示形式。
多头注意力(Multi-Head Attention)
“减少顺序计算”这一目标也构成了扩展神经 GPU(Extended Neural GPU) [16]、ByteNet [18] 和 ConvS2S [9] 的基础,所有这些都使用卷积神经网络作为基本模块,并行地计算所有输入和输出位置的隐藏表示(hidden representations)。在这些模型中,将来自两个任意输入或输出位置的信号关联起来所需的操作数,随位置之间的距离而增加, ConvS2S 为线性增长, ByteNet 则是对数增长。这使得学习远距离的依赖关系变得更加困难 [12]。在 Transformer 中,这被减少至常数次操作,但这也导致平均注意力加权位置信息而使有效分辨率降低,我们用多头注意力(Multi-Head Attention)来抵消这种影响