首页人工智能神经网络算法 – 一文搞懂Attention（注意力）机制

神经网络算法 – 一文搞懂Attention（注意力）机制

Author: banana · 分类：人工智能 · 2024年12月 · tags: attention transformer 人工智能大模型注意力机制算法

本文隶属于：Transformer 系列动画讲解

(感谢“架构师带你玩转AI”公众号整理Transformer系列)

本文将从Attention的本质、Attention的原理、Attention的应用三个方面，带您一文搞懂Attention（注意力）机制。

一、Attention的本质

核心逻辑：从关注全部到关注重点

视觉系统就是一种Attention机制

Transformer：《Attention is All You Need》

AI 领域的 Attention 机制：Attention->Transformer->BERT、GPT->NLP

二、Attention的原理

原理初体验：小故事讲解 Attention原理

Attention机制：了解漫威

Attention原理：3阶段分解

Attention机制的原理图

RNN 时代是死记硬背的时期，Attention机制学会了提纲挈领，进化到Transformer，融会贯通，具备优秀的表达学习能力，再到 GPT、BERT，通过多任务大规模学习积累实战经验，战斗力爆棚。

三、Attention的应用

CNN + Attention：

CNN的卷积操作可以提取重要特征，这也算是Attention的思想。但是CNN的卷积感受视野是局部的，需要通过叠加多层卷积区去扩大视野。

CNN叠加Attention方式如下：

在卷积操作前做Attention：比如Attention-Based BCNN-1，对两段输入的序列向量进行Attention，计算出特征向量，再拼接到原始向量中，作为卷积层的输入。
在卷积操作后做Attention：比如Attention-Based BCNN-2，对两段文本的卷积层的输出做Attention，作为池化层的输入。
在池化层做Attention：比如Attention pooling，首先我们用LSTM学到一个比较好的句向量，作为query，然后用CNN先学习到一个特征矩阵作为key，再用query对key产生权重，进行Attention，得到最后的句向量。

LSTM+Attention：

LSTM内部有门控机制，其中输入门选择哪些当前信息进行输入，遗忘门选择遗忘哪些过去信息，这也算是一定程度的Attention。但LSTM需要一步一步去捕捉序列信息，在长文本上的表现会随着步骤的增加而慢慢衰减，难以保留全部的有用信息。

LSTM通常需要得到一个向量，再去做任务，常用方式有：