Transformer - 1 - Self-attenstion

又见苍岚

COLMAP PatchMatch Stereo 算法详解事件驱动的状态机框架：从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理分段五次多项式插值原理详解路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件，因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录机器人仿真平台 Gazebo 简介多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件（PGM/YAML）规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具私人云音乐平台 Navidrome 入门手眼标定四元数（Quaternions） OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误

Yiwei Zhang · 2023-05-05 · via 又见苍岚

之前我们介绍过 Attention 的机制，但理解始终不够深刻，发现知乎一位大神的 Transformer 介绍，深入浅出，在此学习记录。

问题

Attention 机制是用来做什么的？
Attention 是怎么工作的？
Self-attention 是怎么从 Attention 过度过来的？
Attention 和 Self-attention 的区别是什么？
Self-attention 为什么能 work ？
怎么用 Pytorch 实现 Self-attention ？

Attention 机制是用来做什么的

Attention 机制最早的提出是针对序列模型的，出处是 Bengio 大神在2015年的这篇文章：

https://arxiv.org/pdf/1409.0473.pdf

Bengio 大神其实是借鉴了生物在观察、学习、思考行为中的过程的一种独特的生理机制，这种机制就是 Attention 机制。大家都能有感觉，我们在获取信息的时候，通常是先从宏观上建立一个比较模糊的认识，然后又在红馆认识下，发现一些比较重要的信息，对于这些重要的信息，我们花费更多的注意力进行观察、学习和思考。

我们来看一下下面这张图，测试一下你大脑的注意力。在看图的过程中，试试回答一下，在这张图中你能看到多少张脸？

你一定发现了，当你把注意力放在不同的位置时，你能看到的脸也并不相同。这其实就是大脑的注意力机制，可以说我们无时无刻不在使用这种能力，只是我们并没有把注意力放在上面。

不同任务上，注意力的应用

机器视觉

当我们去看上面这张照片的时候，我们首先就是先去看整体，这里有车、有街道、还有很多的广告牌，不知道大家是否有感受到，当我开始描述这些的时候，其实就是我把注意力放在了这些上面了。那当我们想要跟深入了解这张图片的时候，我就要把注意力放的更聚焦。比如说，我想知道这是拍的哪里，那我可能会试着去看看广告牌上的文字 …

就像上面这张图一样，我们可能会试着把注意力放到不同的区域，那我们就能够得到更多的关于不同角度的信息。这些信息，正是我们希望在图像处理的时候希望得到的。

自然语言

自然语言处理任务中，Attention 机制表示的又是什么呢

比如说上面的这句话，“她正在吃一个绿色的苹果”，这里我们可以比较清楚的看到，“吃”和“苹果”有很强的联系，那我们就希望在处理吃这个单词的时候，能够在语义中，包含一定的苹果的信息，这样能够帮助我们更好的理解“吃”这个动作。“绿色的”和“苹果”也是一样的，Attention的机制能够帮助我们在处理单个的 token 的时候，带有一定的上下文信息。这就像是一种“软性记忆”一样，帮助我们记住上下文中包含的信息。

当我们看一篇文章的时候，其实也是类似的。我们从拿到一篇文章开始，首先关注的也只是一些关键性的词语，这些关键性的词语，就能够帮助我们快速的判断文章的内容和结构。这些场景就是我们在一些具体场景中对 Attention 的应用。

Attention 是怎么工作的

其实总结下来，Attention 机制的工作原理并不复杂，我可以用下面这张图做一个总结。

一个 Attention 的计算过程有三步：

query 和 key 进行相似度计算，得到一个 query 和 key 相关性的分值；
将这个分值进行归一化(softmax)，得到一个注意力的分布；
使用注意力分布和 value 进行计算，得到一个融合注意力的更好的 value 值。

在原始论文中三步走怎么做的

为了更好的说明上面的这个过程，我们可以看看在 Bengio 提出注意力的这篇论文中，以上这三步分别是什么。Bengio 在原文中是想通过注意力来做一个机器翻译(NMT) 的任务，机器翻译中，我们会使用 seq2seq 的架构，每个时间步从词典里生成一个翻译的结果。就像下面这张图一样。

在没有注意力之前，我们每次都是根据 Encoder 部分的输出结果来进行生成，提出注意力后，就是想在生成翻译结果时并不是看 Encoder 中所有的输出结果，而是先来看看，我想生成的这部分和哪些单词可能关系会比较大，关系大的我多借鉴些；关系小的，少借鉴些。就是这样一个想法，我们看看该如何操作。

这里为了生成单词，我们把 Decoder 部分输入后得到的向量作为 query；把 Encoder 部分每个单词的向量作为 key。我先我们先把 query 和每一个单词进行点乘 $score = query \cdot key$，得到相关性的分值；
有了这些分值后，我们对这些分值做一个 softmax ，得到一个注意力的分布；
有了这个注意力，我们就可以用它和 Encoder 的输出值 (value) 进行相乘，得到一个加权求和后的值，这个值就包含注意力的表示，我们用它来预测要生成的词。

在推荐系统中三步走怎么做的

在商品推荐系统中，query 就是我当前要判断的商品的向量，key 就是用户购买序列中，每一个商品的向量。

query 和 key 进行相似度计算，得到待判断商品和购买序列中商品的相关性分值；
将这个分值进行归一化(softmax)，得到一个商品注意力的分布，看看哪些商品是判断的重要依据；
使用注意力分布和 value 进行计算，得到一个融合注意力的更好的 value 值，这个值就是最终我们融合判断当前商品是否推荐购买的依据。

当然，Attention 并不是只有这一种计算方式，后来还有很多人找到了各种各样的计算注意力的方法。但是从本质上，它们都遵循着这个三步走的逻辑，如果你能把对它的理解，放到你的任务中，那你就离着创造自己的 Attention 不远了。

query 和 key 进行相似度计算，得到一个 query 和 key 相关性的分值；
将这个分值进行归一化(softmax)，得到一个注意力的分布；
使用注意力分布和 value 进行计算，得到一个融合注意力的更好的 value 值。

如果能够理解 Attention 了，那么接下来，我们来看看 Self-attention 是怎么衍生出来的。

Self-attention 是怎么从 Attention 衍生出来的过来的

Self-attention 就本质上是依然是一种特殊的 Attention，是在 Transformer 中最重要的结构之一。

上面我们介绍了 Attention 机制，它能够帮我们找到子序列和全局的相关度的关系，也就是找到权重值 $w_i$ 。Self-attention 对于 Attention 的变化，其实就是寻找权重值 $w_i$ 的过程不同。原来，我们计算 $w_i$ 时使用的是子序列和全局，而现在我们计算 Self-attention 时，用的是自己和自己，这是 Attention 和 Self-attention 从计算上来说最大的区别。

接下来，我们来看看 Self-attention 的运算过程。为了能够产生输出的向量 $y_i$ ，Self-attention 其实是对所有的输入做了一个加权平均的操作，这个公式和上面的 Attention 是一致的。
$$
y_{i}=\sum_{j} w_{i j} x_{j}
$$
$ j $ 代表整个序列的长度，并且 $ j $ 个权重的相加之和等于 1 。值得一提的是，这里的 $ w_{i j} $ 并不是一个需要神经网络学习的参数，它是来源于 $ x_{i} $和 $ x_{j} $ （这里 $ x_{i} $和 $ x_{j} $ 就都是自己 self）的之间的计算的结果。而它们之间最简单的一种计算方式，就是使用点积的方式。

$$ w_{i j}^{\prime}=\boldsymbol{x}_{i}^{\top} \boldsymbol{x}_{j} $$

这个点积的输出的取值范围在负无穷和正无穷之间，所以我们要使用一个 Softmax 把它映射到 [0,1] 之间，并且要确保它们对于整个序列而言的和为 1。

$$ w_{i j}=\frac{\exp w_{i j}^{\prime}}{\sum_{j} \exp w_{i j}^{\prime}} $$

以上这些就是 Self-attention 最基本的操作。

图中没有画出 softmax，事实上是有的

Attention 和 Self-attention 的区别是什么

这里有几个重要的区别，可以帮助大家更好的区分在不同任务中的使用方法：

在神经网络中，通常来说你会有输入层（Input），应用激活函数后的输出层（Output），在 RNN 当中你会有状态（State）。如果 Attention (AT) 被应用在某一层的话，它更多的是被应用在输出或者是状态层上，而当我们使用 Self-attention（SA），这种注意力的机制更多的是在关注 Input 自己身上。
SA 可以在一个模型当中被多次的、独立的使用（比如说在Transformer中，使用了18次；在Bert当中使用12次）。但是，AT在一个模型当中经常只是被使用一次，并且起到连接两个组件的作用。两个不同的组件（Component），编码器和解码器。但是如果我们用 SA，它就不是关注的两个组件，它只是在关注你应用的那一个组件。那这里他就不会去关注解码器了，就比如说在 Bert 中，使用的情况，我们就没有解码器。
SA 比较擅长在一个序列当中，寻找不同部分之间的关系。比如说，在词法分析的过程中，能够帮助去理解不同词之间的关系。AT 却更擅长寻找两个序列之间的关系，比如说在翻译任务当中，原始的文本和翻译后的文本。这里也要注意，在翻译任务中，SA 也很擅长，比如说 Transformer。
AT 可以连接两种不同的模态，比如说图片和文字。SA 更多的是被应用在同一种模态上，但是如果一定要使用SA来做的话，也可以将不同的模态组合成一个序列，再使用 SA。
对我来说，大部分情况，SA 这种结构更加的 general，在很多任务作为降维、特征表示、特征交叉等功能尝试着应用，很多时候效果都不错。

Self-attention 为什么能 work

上面描述的方法看起来似乎很简单，但是它为什么能够 work 呢？为了能够建立起直观的感受，让我们来看看一种标准的推荐电影的方法，看看是否能得到一些启发。

假设你正在运营一家在线看电影的网站，你有一些电影和一些用户，你想要把合适的电影推荐给你的用户。你该怎么办呢？

自然语言处理中的解释

那再让我们看一个在自然语言处理中使用 Self-attention 的例子。为了应用 Self-attention，我们给每一个在词表中的单词 t 一个 Embeding 向量 $v_t$ (这个是我们通过一些 NLP 方法学习到的)。这也是我们在序列模型中常见的 Embeding Layer。它会把单词 the,cat,walks,on,the,street 转换成向量的形式

$$ \boldsymbol{v}_{\text {the }}, \boldsymbol{v}_{\text {cat }}, \boldsymbol{v}_{\text {walks }}, \boldsymbol{v}_{\text {on }}, \boldsymbol{v}_{\text {the }}, \boldsymbol{v}_{\text {street }} $$

如果我们对这些向量序列进行 Self-attention的处理，那么就会生成一个新的向量序列:

$$ \mathbf{y}_{\text {the }}, \mathbf{y}_{\text {cat }}, \mathbf{y}_{\text {walks }}, \mathbf{y}_{\text {on }}, \mathbf{y}_{\text {the }}, \mathbf{y}_{\text {street }} $$

这其中 $ y_{c a t} $ 就是所有在第一个序列中的 Embedding 向量的加权和，权重值就是 $ v_{c a t} $ 的点积。

上文中我们也提到了， $ v_{t} $ 是我们学习到的 Embedding 向量，它是 $ t $ 这个单词向量化的表示。在大部分的场景中， the 这个单词和句子中的其他单词没有很强的相关性，因此，我们就会期待 $ v_{\text {the }} $ 和其他单词的点积结果应该比较小或者是一个负值。那再看 walks 这个单词，为了能够解释这个单词，我们希望能够知道是谁在 walk ，那在这句话当中， $ v_{\text {cat }} $ 和 $ v_{\text {walks }} $ 的点积就应该有一个比较大的正的值。

以上这些，就是在 Self-attention 背后一些直觉上的含义。点积操作很好的表示了输入语句中两个向量之间的相关性。

在我们继续下面的内容之前，非常有必要做一个小的总结。

到目前为止，我们还没有用到需要学习的参数。基础的 Self-attention 实际上完全取决于我们创建的输入序列，上游的 Embeding Layer 驱动着 Self-attention 学习对于文本语义的向量表示。
Self-attention看到的序列只是一个集合(set)，不是一个序列，它并没有顺序。如果我们重新排列集合，输出的序列也是一样的。后面我们要使用一些方法来缓和这种没有顺序所带来的信息的缺失。但是值得一提的是，Self-attention 本身是忽略序列的自然输入顺序的。
再来一个动画，看看self-attention的过程。

怎么用 Pytorch 实现 Self-attention

我们将一起从头开始写一个 Self-attention。我们这里将会使用 Pytorch 来实现。

一个简单的实现方法就是循环所有的向量，去计算出权重和输出，但是这样的方法明显太慢了。所以我们要做的第一件事就是怎么使用矩阵乘法的形式来表达 Self-attention。

我们首先来表示输入，一个 $ k $ 维的由 $ t $ 个向量组成的序列构成的矩阵 $ X $ 。包含一个 batch 的参数 $ b $ ，我们会得倒一个维度为 $ (b, t, k) $ 的张量。

所有的点积的结果 $ w_{i j}^{\prime} $ 也构成一个矩阵，我们可以简单的使用 $ X $ 乘以它的转置得到。

import torch
import torch.nn.functional as F# assume we have some tensor x with size (b, t, k)
x = ...
raw_weights = torch.bmm(x, x.transpose(1, 2))
# - torch.bmm is a batched matrix multiplication. It 
#   applies matrix multiplication over batches of 
#   matrices.

然后我们把权重值 $ w_{i j} $ 转换成正值并且确保它们的和为 1 ，我们使用一个 row-wise 的 Softmax。

1	`weights = F.softmax(raw_weights, dim=2)`

最后，我们计算输出的序列，我们只需要使用权重 $ w_{i j} $ 乘以矩阵 $ X $ 。这样我们就得到了维度为 $ (b, t, k) $ 的矩阵 $ Y $ 。

1	`y = torch.bmm(weights, x)`

以上，经过两个简单的矩阵乘法和一个 softmax，我们就得到了 self-attention。

参考资料

文章链接：
https://www.zywvvd.com/notes/study/deep-learning/transformer/transformer-intr/transformer-intr-1/

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

又见苍岚

问题

Attention 机制是用来做什么的

不同任务上，注意力的应用

机器视觉

自然语言

推荐系统

Attention 是怎么工作的

在原始论文中三步走怎么做的

在推荐系统中三步走怎么做的

Self-attention 是怎么从 Attention 衍生出来的过来的

Attention 和 Self-attention 的区别是什么

Self-attention 为什么能 work

推荐中的解释

自然语言处理中的解释

怎么用 Pytorch 实现 Self-attention

参考资料