Adam 优化器

又见苍岚

COLMAP PatchMatch Stereo 算法详解事件驱动的状态机框架：从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理分段五次多项式插值原理详解路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件，因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录机器人仿真平台 Gazebo 简介多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件（PGM/YAML）规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具私人云音乐平台 Navidrome 入门手眼标定四元数（Quaternions） OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误

Adam 优化器

Yiwei Zhang · 2024-01-10 · via 又见苍岚

Adam 是深度学习中常用的优化器，我在使用时遇到了一点问题，弄清楚后记录下来。

Adam

Adam（Adaptive Moment Estimation）优化器是一种广泛使用的优化算法，在深度学习训练中特别流行。它结合了两种不同的优化算法的优点：Momentum 和 RMSprop。下面是 Adam 优化器的工作原理的简要概述：

动量（Momentum）： Adam 优化器计算梯度的指数加权移动平均（也称为一阶矩估计），这有助于加速梯度下降过程中的收敛速度，并帮助克服局部最小值和鞍点。这个概念类似于物理学中的动量，可以使参数更新朝着更一致的方向移动。
RMSprop： Adam 同时计算梯度的平方的指数加权移动平均（二阶矩估计）。这有助于调整学习率，对每个参数进行自适应的学习率调整。参数的更新速度依赖于其梯度的大小，较大的梯度意味着较小的学习率，反之亦然。
偏差修正： 在初始阶段，由于一阶矩估计和二阶矩估计都被初始化为零向量，Adam 会应用偏差修正来防止估计值在训练初期偏向零，尤其是当衰减率非常高时。
参数更新： 结合以上两点，Adam 优化器在每次迭代中更新每个参数，使用的是基于一阶矩和二阶矩调整后的梯度。

Adam 优化器的关键优势在于其自适应学习率的特性，这使得它在处理不同参数的更新时更为灵活，尤其是在处理稀疏梯度或不同量级的梯度时。Adam 通常需要更少的手动超参数调整，尤其是学习率。

Adam 优化器的核心公式如下：

公式	用途
$m_t=\beta_1m_{t-1}+(1-\beta_1)g_t$	更新一阶矩估计
$v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2$	更新二阶矩估计
$\hat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}}$	一阶矩估计的偏差修正
$\hat{v}_{t}=\overline{1-\beta_{2}^{2}}$	二阶矩估计的偏差修正
$\theta_{t+1}=\theta_t-\frac\eta{\sqrt{\hat{v}_t}+\epsilon}\hat{m}_t$	参数更新

其中，$\theta$是需要优化的参数，$g_t$ 是在时间步$t$ 的梯度，$m_t$ 和$v_t$ 分别是一阶矩和二阶矩的估计，$\beta_1$和$\beta_2$是衰减率 (通常设为接近1的值),$\eta$是学习率，而$\epsilon$是为了数值稳定性而添加的一个小常数。

理解

概念	理解
动量（一阶矩）	梯度变化带有噪声，我们需要梯度修正保持一定趋势，需要给梯度更新一定的惯性令其克服噪声向正确的方向前进
二阶矩	不是所有参数都适用于相同的学习率，我们需要根据梯度大小自适应调整每个参数的学习率，这是二阶矩的作用
偏差修正	更新初期，一阶矩和二阶矩均为 0，因此它们会被低估——特别是在迭代的早期阶段，因此除一个随着迭代轮数增加更接近 1 的数字可以在更新初期放大一二阶矩的估计值，同时迭代轮数多了不会影响正常的估计进行

问题记录

我在使用 Adam 优化器优化参数时遇到了稍微复杂的情况：

我的优化器 A 同时管理参数 B, C，但是在某一阶段的网络训练中，我确定 C 不会参与梯度回传，需要 A 优化 B

中的参数即可。这是我的需求，目的是更新 B 不更新 C 。

我知道 Adam 有动量的概念，那么直接将 C 的 grad 置零是没用的，因为残留的动量会使得参数更新时重新变化出梯度 grad 来，那么我在开始训练 B 之前将 A 中所有的一二阶矩全部置零，同时将所有梯度 grad 全部置零：

# 梯度置零
optimizer.zero_grad()
# 一二阶矩 置零
for param in optimizer.state_dict()['state']:
    if param is param_to_reset:
        optimizer.state_dict()['state'][param]['exp_avg'].zero_()
        optimizer.state_dict()['state'][param]['exp_avg_sq'].zero_()

但是在训练 B 的过程中， C 的参数还是会被更新，当时我没有想通问题出在哪。

问题原因

经过翻查源码，发现 Adam 中集成了正则化 L2 Loss —— weight_decay，该参数将当前需要更新的数据的值直接乘起来加到梯度上，本意是减小参数绝对值，令其更加鲁棒，但是对我的需求便是灭顶之灾，经过多轮训练后所有没有梯度回传的参数都会减小到接近 0.

问题解决

找到原因就好办了，源码中会对优化器管理的参数做一个筛选，如果当前参数没有 grad 信息，那么优化器会将其跳过，所以训练前把所有优化器中参数的 grad 设置为 None（不是置零）即可。

原始论文

参考资料

https://arxiv.org/pdf/1412.6980.pdf

文章链接：
https://www.zywvvd.com/notes/study/deep-learning/optimizer/adam/adam/

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

又见苍岚

Adam

理解

问题记录

问题原因

问题解决

原始论文

参考资料