RNN 模型介绍

又见苍岚

COLMAP PatchMatch Stereo 算法详解事件驱动的状态机框架：从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理分段五次多项式插值原理详解路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件，因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录机器人仿真平台 Gazebo 简介多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件（PGM/YAML）规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具私人云音乐平台 Navidrome 入门手眼标定四元数（Quaternions） OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误

RNN 模型介绍

Yiwei Zhang · 2023-04-14 · via 又见苍岚

RNN(Recurrent Neural Network), 中文称作循环神经网络，本文介绍基本概念。

模型简介

RNN (Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.

RNN 的主要特点是可以处理具有时间序列关系的数据，如时间序列、文本和语音等。在RNN网络中，每个神经元都有一个状态，在RNN的每一次迭代中，它会接收输入和前一个状态，并输出当前状态和下一个状态。通过这种方式，RNN能够记住历史信息并在未来预测或生成相关的序列数据。

一般单层神经网络结构:

RNN单层网络结构:

以时间步对RNN进行展开后的单层网络结构:

RNN 的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响.

RNN 的作用

因为RNN结构能够很好利用序列之间的关系, 因此针对自然界具有连续性的输入序列, 如人类的语言, 语音等进行很好的处理, 广泛应用于NLP领域的各项任务, 如文本分类, 情感分析, 意图识别, 机器翻译等.

以一个用户意图识别的例子进行简单的分析:

第一步: 用户输入了"What time is it ?", 我们首先需要对它进行基本的分词, 因为 RNN 是按照顺序工作的, 每次只接收一个单词进行处理.

第二步: 首先将单词"What"输送给RNN, 它将产生一个输出O1.

第三步: 继续将单词"time"输送给RNN, 但此时RNN不仅仅利用"time"来产生输出O2, 还会使用来自上一层隐层输出O1作为输入信息.

第四步: 重复这样的步骤, 直到处理完所有的单词.

第五步: 最后，将最终的隐层输出O5进行处理来解析用户意图.

RNN 模型的分类

这里我们将从两个角度对RNN模型进行分类. 第一个角度是输入和输出的结构, 第二个角度是RNN的内部构造.

按照输入和输出的结构进行分类:
- N vs N - RNN
- N vs 1 - RNN
- 1 vs N - RNN
- N vs M - RNN
按照RNN的内部构造进行分类:
- 传统RNN
- LSTM
- Bi-LSTM
- GRU
- Bi-GRU

按照输入和输出的结构进行分类

N vs N - RNN

它是RNN最基础的结构形式, 最大的特点就是: 输入和输出序列是等长的. 由于这个限制的存在, 使其适用范围比较小, 可用于生成等长度的合辙诗句.

N vs 1 - RNN

有时候我们要处理的问题输入是一个序列，而要求输出是一个单独的值而不是序列，应该怎样建模呢？我们只要在最后一个隐层输出h上进行线性变换就可以了，大部分情况下，为了更好的明确结果, 还要使用 sigmoid 或者 softmax 进行处理. 这种结构经常被应用在文本分类问题上.

1 vs N - RNN

如果输入不是序列而输出为序列的情况怎么处理呢？我们最常采用的一种方式就是使该输入作用于每次的输出之上. 这种结构可用于将图片生成文字任务等.

N vs M - RNN

这是一种不限输入输出长度的RNN结构, 它由编码器和解码器两部分组成, 两者的内部结构都是某类 RNN, 它也被称为 seq2seq架构.

输入数据首先通过编码器, 最终输出一个隐含变量 $c$, 之后最常用的做法是使用这个隐含变量 $c$ 作用在解码器进行解码的每一步上, 以保证输入信息被有效利用.

seq2seq 架构最早被提出应用于机器翻译, 因为其输入输出不受限制，如今也是应用最广的RNN模型结构. 在机器翻译, 阅读理解, 文本摘要等众多领域都进行了非常多的应用实践.

按照RNN的内部构造进行分类

传统RNN模型

内部结构

结构解释

内部结构分析

我们把目光集中在中间的方块部分, 它的输入有两部分, 分别是 $h_{t-1}$ 以及 $x_t$, 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量 $[x_{t}, h_{t-1}]$, 之后这个新的张量将通过一个全连接层(线性层), 该层使用 tanh 作为激活函数, 最终得到该时间步的输出 $h_t$, 它将作为下一个时间步的输入和 $x_{t+1}$ 一起进入结构体. 以此类推.

内部结构过程

内部计算公式

$$
h_{t}=\tanh \left(W_{t}\left[X_{t}, h_{t-1}\right]+b_{t}\right)
$$

激活函数tanh的作用

用于帮助调节流经网络的值, tanh函数将值压缩在-1和1之间.

Pytorch中传统RNN工具的使用

位置: 在 torch.nn 工具包之中, 通过 torch.nn.RNN 可调用.

nn.RNN 类初始化主要参数解释：

参数	含义
input_size	输入张量x中特征维度的大小.
hidden_size	隐层张量h中特征维度的大小.
num_layers	隐含层的数量.
nonlinearity	激活函数的选择, 默认是tanh.

nn.RNN 类实例化对象主要参数解释：

参数	含义
input	输入张量x.
h0	初始化的隐层张量h.

nn.RNN 使用示例:

# 导入工具包
>>> import torch
>>> import torch.nn as nn
>>> rnn = nn.RNN(5, 6, 1)
>>> input = torch.randn(1, 3, 5)
>>> h0 = torch.randn(1, 3, 6)
>>> output, hn = rnn(input, h0)
>>> output
tensor([[[ 0.4282, -0.8475, -0.0685, -0.4601, -0.8357,  0.1252],
         [ 0.5758, -0.2823,  0.4822, -0.4485, -0.7362,  0.0084],
         [ 0.9224, -0.7479, -0.3682, -0.5662, -0.9637,  0.4938]]],
       grad_fn=<StackBackward>) >>> hn
tensor([[[ 0.4282, -0.8475, -0.0685, -0.4601, -0.8357,  0.1252],
         [ 0.5758, -0.2823,  0.4822, -0.4485, -0.7362,  0.0084],
         [ 0.9224, -0.7479, -0.3682, -0.5662, -0.9637,  0.4938]]],
       grad_fn=<StackBackward>)

传统RNN的优势

由于内部结构简单, 对计算资源要求低, 相比之后我们要学习的RNN变体:LSTM和GRU模型参数总量少了很多, 在短序列任务上性能和效果都表现优异.

传统RNN的缺点

传统 RNN 在解决长序列之间的关联时, 通过实践, 证明经典 RNN 表现很差, 原因是在进行反向传播的时候, 过长的序列导致梯度的计算异常, 发生梯度消失或爆炸.

梯度消失或爆炸

什么是梯度消失或爆炸

根据反向传播算法和链式法则, 梯度的计算可以简化为以下公式:
$$
D_{n}=\sigma^{\prime}\left(z_{1}\right) w_{1} \cdot \sigma^{\prime}\left(z_{2}\right) w_{2} \cdot \ldots \cdot \sigma^{\prime}\left(z_{n}\right) w_{n}
$$
其中 sigmoid 的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的 $w$ 也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大 $w$ 的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸.

梯度消失或爆炸的危害

如果在训练过程中发生了梯度消失，权重无法被更新，最终导致训练失败; 梯度爆炸所带来的梯度过大，大幅度更新网络参数，在极端情况下，结果会溢出（NaN值）.

LSTM模型

LSTM（Long Short-Term Memory）也称长短时记忆结构, 它是传统RNN的变体, 与经典RNN相比能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时 LSTM 的结构更复杂, 它的核心结构可以分为四个部分去解析:

遗忘门
输入门
细胞状态
输出门

内部结构

结构解释

遗忘门部分结构图与计算公式

$$
f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)
$$

遗忘门结构分析

与传统RNN的内部结构计算非常相似, 首先将当前时间步输入$x_t$与上一个时间步隐含状态 $h_{t-1}$拼接, 得到$[x_{t}, h_{t-1}]$, 然后通过一个全连接层做变换, 最后通过 sigmoid 函数进行激活得到 $f_t$ .

我们可以将 $f_t$ 看作是门值, 好比一扇门开合的大小程度, 门值都将作用在通过该扇门的张量, 遗忘门门值将作用的上一层的细胞状态上, 代表遗忘过去的多少信息, 又因为遗忘门门值是由 $x_t, h_{t-1}$ 计算得来的, 因此整个公式意味着根据当前时间步输入和上一个时间步隐含状态 $h_{t-1}$来决定遗忘多少上一层的细胞状态所携带的过往信息.

遗忘门内部结构过程演示

激活函数sigmiod的作用

用于帮助调节流经网络的值, sigmoid 函数将值压缩在0和1之间.

输入门部分结构图与计算公式

$$
\begin{aligned} i_{t} & =\sigma\left(W_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right) \ \tilde{C}{t} & =\tanh \left(W{C} \cdot\left[h_{t-1}, x_{t}\right]+b_{C}\right)\end{aligned}
$$

输入门结构分析

我们看到输入门的计算公式有两个：

第一个就是产生输入门门值的公式, 它和遗忘门公式几乎相同, 区别只是在于它们之后要作用的目标上. 这个公式意味着输入信息有多少需要进行过滤.

输入门的第二个公式是与传统RNN的内部结构计算相同. 对于LSTM来讲, 它得到的是当前的细胞状态, 而不是像经典RNN一样得到的是隐含状态.

输入门内部结构过程演示

细胞状态更新图与计算公式

$$
C_{t}=f_{t} * C_{t-1}+i_{t} * \tilde{C}_{t}
$$

细胞状态更新分析

细胞更新的结构与计算公式非常容易理解, 这里没有全连接层, 只是将刚刚得到的遗忘门门值与上一个时间步得到的 $C_{t-1}$ 相乘, 再加上输入门门值与当前时间步得到的未更新 $C_t$相乘的结果. 最终得到更新后的 $C_t$作为下一个时间步输入的一部分. 整个细胞状态更新过程就是对遗忘门和输入门的应用.

细胞状态更新过程演示

输出门部分结构图与计算公式

$$
\begin{aligned} o_{t} & =\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right) \ h_{t} & =o_{t} * \tanh \left(C_{t}\right)\end{aligned}
$$

输出门结构分析

输出门部分的公式也是两个, 第一个即是计算输出门的门值, 它和遗忘门，输入门计算方式相同. 第二个即是使用这个门值产生隐含状态 $h_t$, 他将作用在更新后的细胞状态 $C_t$上, 并做 $tanh$ 激活, 最终得到 $h_t$作为下一时间步输入的一部分. 整个输出门的过程, 就是为了产生隐含状态 $h_t$.

输出门内部结构过程演示

Bi-LSTM

Bi-LSTM 即双向 LSTM, 它没有改变LSTM本身任何的内部结构, 只是将LSTM应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出.

结构分析

我们看到图中对"我爱中国"这句话或者叫这个输入序列, 进行了从左到右和从右到左两次LSTM处理, 将得到的结果张量进行了拼接作为最终输出. 这种结构能够捕捉语言语法中一些特定的前置或后置特征, 增强语义关联,但是模型参数和计算复杂度也随之增加了一倍, 一般需要对语料和计算资源进行评估后决定是否使用该结构.

Pytorch中LSTM工具的使用

位置: 在torch.nn工具包之中, 通过torch.nn.LSTM可调用.

nn.LSTM类初始化主要参数解释

参数	含义
input_size	输入张量x中特征维度的大小.
hidden_size	隐层张量h中特征维度的大小.
num_layers	隐含层的数量.
bidirectional	是否选择使用双向LSTM, 如果为True, 则使用; 默认不使用.

nn.LSTM类实例化对象主要参数解释

参数	含义
input	输入张量x.
h0	初始化的隐层张量h.
c0	初始化的细胞状态张量c.

nn.LSTM使用示例

# 定义LSTM的参数含义: (input_size, hidden_size, num_layers)
# 定义输入张量的参数含义: (sequence_length, batch_size, input_size)
# 定义隐藏层初始张量和细胞初始状态张量的参数含义:
# (num_layers * num_directions, batch_size, hidden_size) >>> import torch.nn as nn
>>> import torch
>>> rnn = nn.LSTM(5, 6, 2)
>>> input = torch.randn(1, 3, 5)
>>> h0 = torch.randn(2, 3, 6)
>>> c0 = torch.randn(2, 3, 6)
>>> output, (hn, cn) = rnn(input, (h0, c0))
>>> output
tensor([[[ 0.0447, -0.0335,  0.1454,  0.0438,  0.0865,  0.0416],
         [ 0.0105,  0.1923,  0.5507, -0.1742,  0.1569, -0.0548],
         [-0.1186,  0.1835, -0.0022, -0.1388, -0.0877, -0.4007]]],
       grad_fn=<StackBackward>)
>>> hn
tensor([[[ 0.4647, -0.2364,  0.0645, -0.3996, -0.0500, -0.0152],
         [ 0.3852,  0.0704,  0.2103, -0.2524,  0.0243,  0.0477],
         [ 0.2571,  0.0608,  0.2322,  0.1815, -0.0513, -0.0291]],
         [[ 0.0447, -0.0335,  0.1454,  0.0438,  0.0865,  0.0416],
         [ 0.0105,  0.1923,  0.5507, -0.1742,  0.1569, -0.0548],
         [-0.1186,  0.1835, -0.0022, -0.1388, -0.0877, -0.4007]]],
       grad_fn=<StackBackward>)
>>> cn
tensor([[[ 0.8083, -0.5500,  0.1009, -0.5806, -0.0668, -0.1161],
         [ 0.7438,  0.0957,  0.5509, -0.7725,  0.0824,  0.0626],
         [ 0.3131,  0.0920,  0.8359,  0.9187, -0.4826, -0.0717]],
         [[ 0.1240, -0.0526,  0.3035,  0.1099,  0.5915,  0.0828],
         [ 0.0203,  0.8367,  0.9832, -0.4454,  0.3917, -0.1983],
         [-0.2976,  0.7764, -0.0074, -0.1965, -0.1343, -0.6683]]],
       grad_fn=<StackBackward>)

LSTM优势

LSTM的门结构能够有效减缓长序列问题中可能出现的梯度消失或爆炸, 虽然并不能杜绝这种现象, 但在更长的序列问题上表现优于传统RNN.

LSTM缺点

由于内部结构相对较复杂, 因此训练效率在同等算力下较传统RNN低很多.

GRU模型

GRU（Gated Recurrent Unit）也称门控循环单元结构, 它也是传统RNN的变体, 同LSTM一样能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时它的结构和计算要比LSTM更简单, 它的核心结构可以分为两个部分去解析:

更新门
重置门

GRU的内部结构图和计算公式

$$
\begin{aligned} z_{t} & =\sigma\left(W_{z} \cdot\left[h_{t-1}, x_{t}\right]\right) \ r_{t} & =\sigma\left(W_{r} \cdot\left[h_{t-1}, x_{t}\right]\right) \ \tilde{h}{t} & =\tanh \left(W \cdot\left[r{t} * h_{t-1}, x_{t}\right]\right) \ h_{t} & =\left(1-z_{t}\right) * h_{t-1}+z_{t} * \tilde{h}_{t}\end{aligned}
$$

结构解释

GRU的更新门和重置门结构图

内部结构分析

和之前分析过的 LSTM 中的门控一样, 首先计算更新门和重置门的门值, 分别是 $z_t$ 和 $r_t$, 计算方法就是使用 $X_t$ 与 $h_{t-1}$ 拼接进行线性变换, 再经过 sigmoid 激活.

之后重置门门值作用在了 $h_{t-1}$ 上, 代表控制上一时间步传来的信息有多少可以被利用. 接着就是使用这个重置后的 $h_{t-1}$ 进行基本的RNN计算, 即与 $x_t$ 拼接进行线性变化, 经过 tanh 激活, 得到新的 $h_t$.

最后更新门的门值会作用在新的 $h_t$，而1-门值会作用在 $h_{t-1}$ 上, 随后将两者的结果相加, 得到最终的隐含状态输出 $h_t$ , 这个过程意味着更新门有能力保留之前的结果, 当门值趋于1时, 输出就是新的 $h_t$ , 而当门值趋于0时, 输出就是上一时间步的 $h_{t-1}$.

Bi-GRU 与 Bi-LSTM 的逻辑相同, 都是不改变其内部结构, 而是将模型应用两次且方向不同, 再将两次得到的 LSTM 结果进行拼接作为最终输出. 具体参见上小节中的 Bi-LSTM.

Pytorch中GRU工具的使用

位置: 在torch.nn工具包之中, 通过torch.nn.GRU可调用.

nn.GRU类初始化主要参数解释

参数	含义
input_size	输入张量x中特征维度的大小.
hidden_size	隐层张量h中特征维度的大小.
num_layers	隐含层的数量.
bidirectional	是否选择使用双向LSTM, 如果为True, 则使用; 默认不使用.

nn.GRU类实例化对象主要参数解释

参数	含义
input	输入张量x.
h0	初始化的隐层张量h.

nn.GRU使用示例

>>> import torch
>>> import torch.nn as nn
>>> rnn = nn.GRU(5, 6, 2)
>>> input = torch.randn(1, 3, 5)
>>> h0 = torch.randn(2, 3, 6)
>>> output, hn = rnn(input, h0)
>>> output
tensor([[[-0.2097, -2.2225,  0.6204, -0.1745, -0.1749, -0.0460],
         [-0.3820,  0.0465, -0.4798,  0.6837, -0.7894,  0.5173],
         [-0.0184, -0.2758,  1.2482,  0.5514, -0.9165, -0.6667]]],
       grad_fn=<StackBackward>)
>>> hn
tensor([[[ 0.6578, -0.4226, -0.2129, -0.3785,  0.5070,  0.4338],
         [-0.5072,  0.5948,  0.8083,  0.4618,  0.1629, -0.1591],
         [ 0.2430, -0.4981,  0.3846, -0.4252,  0.7191,  0.5420]],         [[-0.2097, -2.2225,  0.6204, -0.1745, -0.1749, -0.0460],
         [-0.3820,  0.0465, -0.4798,  0.6837, -0.7894,  0.5173],
         [-0.0184, -0.2758,  1.2482,  0.5514, -0.9165, -0.6667]]],
       grad_fn=<StackBackward>)

GRU的优势

GRU和LSTM作用相同, 在捕捉长序列语义关联时, 能有效抑制梯度消失或爆炸, 效果都优于传统RNN且计算复杂度相比LSTM要小.

GRU的缺点

GRU仍然不能完全解决梯度消失问题, 同时其作用RNN的变体, 有着RNN结构本身的一大弊端, 即不可并行计算, 这在数据量和模型体量逐步增大的未来, 是RNN发展的关键瓶颈.

注意力机制

什么是注意力

我们观察事物时，之所以能够快速判断一种事物(当然允许判断是错误的), 是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断，而并非是从头到尾的观察一遍事物后，才能有判断结果. 正是基于这样的理论，就产生了注意力机制.

什么是注意力计算规则

它需要三个指定的输入$Q(query), K(key), V(value)$, 然后通过计算公式得到注意力的结果, 这个结果代表 query 在 key 和 value 作用下的注意力表示. 当输入的 Q=K=V 时, 称作自注意力计算规则.

常见的注意力计算规则

将 Q，K 进行纵轴拼接, 做一次线性变化, 再使用 softmax 处理获得结果最后与 V 做张量乘法.

$$
\operatorname{Attention}(Q, K, V)=\operatorname{Softmax}(\operatorname{Linear}([Q, K])) \cdot V
$$

将Q，K进行纵轴拼接, 做一次线性变化后再使用tanh函数激活, 然后再进行内部求和, 最后使用softmax处理获得结果再与V做张量乘法.

$$
\operatorname{Attention}(Q, K, V)=\operatorname{Softmax}(\operatorname{sum}(\tanh (\operatorname{Linear}([Q, K])))) \cdot V
$$

将 Q 与 K 的转置做点积运算, 然后除以一个缩放系数, 再使用 softmax 处理获得结果最后与 V 做张量乘法.

$$
\operatorname{Attention}(Q, K, V)=\operatorname{Softmax}\left(\frac{Q \cdot K^{T}}{\sqrt{d_{k}}}\right) \cdot V
$$

说明：当注意力权重矩阵和V都是三维张量且第一维代表为batch条数时, 则做bmm运算.bmm是一种特殊的张量乘法运算.

bmm运算演示

# 如果参数1形状是(b × n × m), 参数2形状是(b × m × p), 则输出为(b × n × p)
>>> input = torch.randn(10, 3, 4)
>>> mat2 = torch.randn(10, 4, 5)
>>> res = torch.bmm(input, mat2)
>>> res.size()
torch.Size([10, 3, 5])

什么是注意力机制

注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制

说明: NLP领域中, 当前的注意力机制大多数应用于 seq2seq 架构, 即编码器和解码器模型.

注意力机制的作用

在解码器端的注意力机制: 能够根据模型目标有效的聚焦编码器的输出结果, 当其作为解码器的输入时提升效果. 改善以往编码器输出是单一定长张量, 无法存储过多信息的情况.

在编码器端的注意力机制: 主要解决表征问题, 相当于特征提取过程, 得到输入的注意力表示. 一般使用自注意力(self-attention).

注意力机制实现步骤

根据注意力计算规则, 对 Q，K，V 进行相应的计算.
根据第一步采用的计算方法, 如果是拼接方法，则需要将Q与第二步的计算结果再进行拼接, 如果是转置点积, 一般是自注意力, Q与V相同, 则不需要进行与Q的拼接.
最后为了使整个attention机制按照指定尺寸输出, 使用线性层作用在第二步的结果上做一个线性变换, 得到最终对 Q 的注意力表示.

常见注意力机制的代码分析

import torch
import torch.nn as nn
import torch.nn.functional as F class Attn(nn.Module):
    def __init__(self, query_size, key_size, value_size1, value_size2, output_size):
        """初始化函数中的参数有5个, query_size代表query的最后一维大小
           key_size代表key的最后一维大小, value_size1代表value的导数第二维大小, 
           value = (1, value_size1, value_size2)
           value_size2代表value的倒数第一维大小, output_size输出的最后一维大小"""
        super(Attn, self).__init__()
        # 将以下参数传入类中
        self.query_size = query_size
        self.key_size = key_size
        self.value_size1 = value_size1
        self.value_size2 = value_size2
        self.output_size = output_size
         # 初始化注意力机制实现第一步中需要的线性层.
        self.attn = nn.Linear(self.query_size + self.key_size, value_size1)
         # 初始化注意力机制实现第三步中需要的线性层.
        self.attn_combine = nn.Linear(self.query_size + value_size2, output_size)
      def forward(self, Q, K, V):
        """forward函数的输入参数有三个, 分别是Q, K, V, 根据模型训练常识, 输入给Attion机制的
           张量一般情况都是三维张量, 因此这里也假设Q, K, V都是三维张量"""
         # 第一步, 按照计算规则进行计算, 
        # 我们采用常见的第一种计算规则
        # 将Q，K进行纵轴拼接, 做一次线性变化, 最后使用softmax处理获得结果
        attn_weights = F.softmax(
            self.attn(torch.cat((Q[0], K[0]), 1)), dim=1)
         # 然后进行第一步的后半部分, 将得到的权重矩阵与V做矩阵乘法计算, 
        # 当二者都是三维张量且第一维代表为batch条数时, 则做bmm运算
        # unsqueeze(0)将二维张量扩展为三维
        attn_applied = torch.bmm(attn_weights.unsqueeze(0), V)
         # 之后进行第二步, 通过取[0]是用来降维, 根据第一步采用的计算方法, 
        # 需要将Q与第一步的计算结果再进行拼接
        output = torch.cat((Q[0], attn_applied[0]), 1)
         # 最后是第三步, 使用线性层作用在第三步的结果上做一个线性变换并扩展维度，得到输出
        # 因为要保证输出也是三维张量, 因此使用unsqueeze(0)扩展维度
        output = self.attn_combine(output).unsqueeze(0)
        return output, attn_weights

调用：


query_size = 32
key_size = 32
value_size1 = 32
value_size2 = 64
output_size = 64
attn = Attn(query_size, key_size, value_size1, value_size2, output_size)
Q = torch.randn(1,1,32)
K = torch.randn(1,1,32)
V = torch.randn(1,32,64)
out = attn(Q, K ,V)
print(out[0])
print(out[1])-->
tensor([[[ 0.4477, -0.0500, -0.2277, -0.3168, -0.4096, -0.5982,  0.1548,
          -0.0771, -0.0951,  0.1833,  0.3128,  0.1260,  0.4420,  0.0495,
          -0.7774, -0.0995,  0.2629,  0.4957,  1.0922,  0.1428,  0.3024,
          -0.2646, -0.0265,  0.0632,  0.3951,  0.1583,  0.1130,  0.5500,
          -0.1887, -0.2816, -0.3800, -0.5741,  0.1342,  0.0244, -0.2217,
           0.1544,  0.1865, -0.2019,  0.4090, -0.4762,  0.3677, -0.2553,
          -0.5199,  0.2290, -0.4407,  0.0663, -0.0182, -0.2168,  0.0913,
          -0.2340,  0.1924, -0.3687,  0.1508,  0.3618, -0.0113,  0.2864,
          -0.1929, -0.6821,  0.0951,  0.1335,  0.3560, -0.3215,  0.6461,
           0.1532]]], grad_fn=<UnsqueezeBackward0>)
  tensor([[0.0395, 0.0342, 0.0200, 0.0471, 0.0177, 0.0209, 0.0244, 0.0465, 0.0346,
         0.0378, 0.0282, 0.0214, 0.0135, 0.0419, 0.0926, 0.0123, 0.0177, 0.0187,
         0.0166, 0.0225, 0.0234, 0.0284, 0.0151, 0.0239, 0.0132, 0.0439, 0.0507,
         0.0419, 0.0352, 0.0392, 0.0546, 0.0224]], grad_fn=<SoftmaxBackward>)

参考资料

自然语言处理（NLP）学习笔记——RNN模型

文章链接：
https://www.zywvvd.com/notes/study/deep-learning/nlp/rnn-intr/rnn-intr/

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

又见苍岚

模型简介

RNN 的作用

RNN 模型的分类

按照输入和输出的结构进行分类

N vs N - RNN

N vs 1 - RNN

1 vs N - RNN

N vs M - RNN

按照RNN的内部构造进行分类

传统RNN模型

内部结构

结构解释

内部结构分析

内部结构过程

内部计算公式

激活函数tanh的作用

Pytorch中传统RNN工具的使用

传统RNN的优势

传统RNN的缺点

梯度消失或爆炸

什么是梯度消失或爆炸

LSTM模型

内部结构

结构解释

遗忘门部分结构图与计算公式

遗忘门结构分析

遗忘门内部结构过程演示

激活函数sigmiod的作用

输入门部分结构图与计算公式

输入门结构分析

输入门内部结构过程演示

细胞状态更新图与计算公式

细胞状态更新分析

细胞状态更新过程演示

输出门部分结构图与计算公式

输出门结构分析

输出门内部结构过程演示

Bi-LSTM

结构分析

Pytorch中LSTM工具的使用

nn.LSTM类初始化主要参数解释

nn.LSTM类实例化对象主要参数解释

nn.LSTM使用示例

LSTM优势

LSTM缺点

GRU模型

GRU的内部结构图和计算公式

结构解释

GRU的更新门和重置门结构图

内部结构分析

Pytorch中GRU工具的使用

nn.GRU类初始化主要参数解释

nn.GRU类实例化对象主要参数解释

nn.GRU使用示例

GRU的优势

GRU的缺点

注意力机制

什么是注意力

什么是注意力计算规则

常见的注意力计算规则

bmm运算演示

什么是注意力机制

注意力机制的作用

注意力机制实现步骤

常见注意力机制的代码分析

参考资料