惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

P
Proofpoint News Feed
Microsoft Azure Blog
Microsoft Azure Blog
Jina AI
Jina AI
博客园_首页
宝玉的分享
宝玉的分享
The Cloudflare Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
量子位
T
Tailwind CSS Blog
雷峰网
雷峰网
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Hugging Face - Blog
Hugging Face - Blog
月光博客
月光博客
罗磊的独立博客
F
Fortinet All Blogs
酷 壳 – CoolShell
酷 壳 – CoolShell
Stack Overflow Blog
Stack Overflow Blog
J
Java Code Geeks
V
V2EX
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The GitHub Blog
The GitHub Blog
Apple Machine Learning Research
Apple Machine Learning Research
博客园 - 聂微东
U
Unit 42
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
D
Docker
阮一峰的网络日志
阮一峰的网络日志
I
InfoQ
Simon Willison's Weblog
Simon Willison's Weblog
D
DataBreaches.Net
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
I
Intezer
Scott Helme
Scott Helme
B
Blog
M
MIT News - Artificial intelligence
K
Kaspersky official blog
H
Help Net Security
V
Vulnerabilities – Threatpost
C
CXSECURITY Database RSS Feed - CXSecurity.com
Engineering at Meta
Engineering at Meta
博客园 - 【当耐特】
L
Lohrmann on Cybersecurity
P
Privacy & Cybersecurity Law Blog
Project Zero
Project Zero
The Hacker News
The Hacker News
B
Blog RSS Feed
T
Tor Project blog

博客园_首页

Plist 二进制格式 Milvus 和 PGVector,哪个更好? OpenClaw 已过时?在 VS Code 中运行 Hermes Agent! 第30篇文章:一个大三计科生的自白 Manim如何在数学公式中完美显示中文? Docker 部署 RocketMQ 5 并发编程核心概念辨析 C#事务处理最佳实践:别再让“主表存了、明细丢了”的破事发生 CLI 是什么?为什么大厂突然集体卷命令行? 【从0到1构建一个ClaudeAgent】协作-自主Agent UIImageView 设置图片不生效的原因排查 最小二乘问题详解20:无先验约束下的增量式SFM自由网平差 痞子衡嵌入式:大话双核i.MXRT1180之XIP应用里借助MU实现可靠Flash IAP的方法 AI Chat 封装, SemanticKerne.AiProvider.Unified 已发布 Windows下右键编辑js文件无法打开记事本——在注册表中使用环境变量 在后台服务中使用 Scoped 服务,为什么总是报错? H200 安装驱动并使用sglang启动模型 wireshark 抓包Trap上报告警内容 我用 AI 辅助开发了一系列小工具(2):图片压缩工具 [A Primer On MC and CC] 2.1 Memory Consistency 1 - 指令重排序和 SC 模型 Oracle数据库SCN推进技术详解与实践指南 玩转控件:封装个带图片的Label控件 Claude Code 4.7 真正该升级的不是模型,而是你的工作流 前端小白一句话,AI 帮我做了个颜值拉满的桌面媒体播放器。当代码不再是门槛,一句话编程就是现实。 5. WorkBuddy: 小龙虾的灵魂三件套,让你的小龙虾不只是工具 SQLite 分片方案实战:三种分片策略的深度对比 告别简陋 UI!一款基于 Fluent Design 和基于 WinUI 的开源免费、现代化的 Avalonia UI 控件库 关于二进制排列组合枚举的总结 AI开发-python-LangGraph框架(3-27-LangGraph从零实现大模型智能决策工作流) ElasticSearch主分片和副本分片概念详解 【002】HTTPS 粗解:证书、TLS 握手与对后端配置的影响 Hermes Agent 一周暴涨五万 Star,但我劝你别急着追 明明连接的是Redis的DB0,为什么能查到DB3的数据? 【从0到1构建一个ClaudeAgent】协作-Agent团队 熟悉电子元器件之后,电子小白下一步该怎么走? MAF快速入门(23)通过C#类定义Skills .NET 高级开发 | 手写一个对象映射框架 FastAPI数据库ORM怎么选?我肝了三个Demo后,终于不再纠结了 mysqldump 参数拾遗:在遗忘与铭记之间 C# .NET 周刊|2026年3月5期 Claude code入门 - 陈彦斌 一文学习入门 ThingsBoard 开源物联网平台 GitHub 热门项目 | 2026年04月16日 如何为GIT设置全局勾子,为每次提交追加信息 Number.isFinite和isFinite与isNaN()和Number.isNaN的区别 PortSwigger SQL注入LAB2 推荐一个测试人必备的Skills,从功能到性能全搞定(附详细实操和安装下载方式) 筑基期:掌握Odoo基础核心知识点02(Odoo XML 开发方式详解) GLM模型这么火,咱们用vllm也咧一个呗! 深入理解 AbortController:从底层原理到跨语言设计哲学 字符串学习笔记 多租户系统框架的基础模块设计和分析设计 Apache SeaTunnel Zeta 为什么能做到“又快又稳”? AI开发-python-LangGraph框架(3-26-LangGraph基本概念及第一个简单样例) Vue 3 组件通信,别只会用 Props 和 Emits 了,这几个狠活儿你得看看 ElasticSearch7.X版本配置密码 用Manim实现动态交点计算--从一个动点问题说起 团结引擎+Addressable+Instant Game打包抖音小游戏 function call 实战:让 LLM 自动判断 pod 异常、调用日志工具并完成故障分析 bubseek —— 让 Agent 的足迹,变成团队的洞察 通过 C# 读取并导出 PDF 书签 如何用 GitHub Actions 实现 Steam 自动化发布 【从0到1构建一个ClaudeAgent】并发-后台任务 .NET 高级开发 | 定制 ASP.NET Core 框架 电子小白:什么是运算放大器(运放) zero2Agent:面向大厂面试的 Agent 工程教程,从概念到生产的完整学习路线 堆上的ORW HC32F460 USB CDC通信异常:非对齐访问异常排查 20260413-Hyperbridge 攻击事件:发生在默克尔山上的验证绕过 那些喊着AI 要淘汰你的人,正在靠你的焦虑赚大钱! 深度学习进阶(八)Swin Transformer 最小二乘问题详解19:带先验约束的增量式SFM优化与实现 SnapTranslate 3.0 正式发布:全局划词翻译 + 完整英语学习闭环,一站式搞定查词、记词、复习 工作的意义、工作的困难认知再思考 .NET + AI 进阶实战:基于类的技能开发 - 打造可治理的 Agent 能力模块 【从0到1构建一个ClaudeAgent】规划与协调-技能 上周热点回顾(4.6-4.12) 电子小白的工具三件套:面包板、杜邦线、万能板 单表五亿数据的查询优化 | Mysql、StarRocks 2. WorkBuddy:从“我是谁”到“帮我干活” C# 如何减少代码运行时间:7 个实战技巧 基于HelixToolkit.SharpDX 渲染3D模型 - 笺上知微 从零开始的双臂具身VLA起源及现阶段发展综述 - SkyXZ 记对 xonsh shell 的使用, 脚本编写, 迁移及调优 - pluvium27 受够了Vibe Coding的失控?换个起点,让AI事半功倍 从开始配置漏洞环境到漏洞复现流程 - 難しい 关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 - 虚无境 Any metadata 的内存布局 C# .NET 周刊|2026年3月2期 - InCerry 我帮你测过了,测试圈排名第二的 Skill 依然很牛逼 Skill Discovery | 无监督技能发现的经典工作总结 - MoonOut 上下文工程是什么?过时了么?一文讲明白! - 一枫说码 开了 TUN 模式还是直连?90% 的人都踩过这个坑 AScript扩展多种脚本语言 - rockey627 AI 学习笔记:Agent 的记忆机制 你能被装进一个文件里吗?——7 万人把同事"蒸馏"成了 AI - 我没有三颗心脏 Claude Code 通关手册(七):给 AI 装上技能包——Skills 完全指南 - 暮色之狐 在浏览器中快速编辑代码:VSCode Web 集成实践 - Newbe36524 蒸馏自己 skill?基于 Deepseek 的蒸馏器,丐版蒸馏方式,简单便捷 - To_Carpe_Diem Spring AI Aliababa和AgentScope,哪个更好? - 苏三说技术
深度学习进阶(十三)可变形卷积 DCN
哥布林学者 · 2026-04-29 · via 博客园_首页

之前的内容里,我们提出了让 CNN 更灵活的想法:

能不能让“采样位置”本身,变成可以学习的?

上一篇里,我们已经用可变形池化实现了这一目标。但同时我们也提到了,这并非终点:

既然池化可以偏移采样,那更基础的卷积本身为什么不能?

这便是 Deformable Convolutional Networks 里的核心创新:可变形卷积,简称 DCN。

1. 从卷积到可变形卷积

1.1 传统卷积层的建模局限

首先要强调的是:DCN 并不是一种独立的网络结构,而是一种针对卷积操作的改进方法。通常不会单独称一个模型为“DCN”,而是称其为:基于 DCN 的网络(DCN-based models),或者 DCN 算子。

因此,在展开 DCN 之前,我们先回顾一下 CNN 本身的核心操作:卷积
这里,我们以最常见的二维卷积展开:

\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n) \cdot x(p_0 + p_n)+b \]

再简单解释一下这个公式:

  1. \(x\) :输入特征图。
  2. \(p_0\):当前输出位置。
  3. \(\mathcal{R}\):卷积核的采样位置,决定偏移坐标 \(p_n\)
  4. \(w(p_n)\):卷积核中的对应的卷积权重。

总结公式逻辑:通过输出位置和偏移的组合遍历所有卷积核覆盖位置,对相应元素进行线性组合。
如果你有些遗忘,可以在这里查看之前的介绍:图像处理基础

继续,这里的关键点是:采样位置 \(\mathcal{R}\) 是固定的。
比如一个 \(3\times3\) 卷积核,每个输出位置只能采样自身和周围的总计 9 个元素。
从出发点来说,这本身是没有问题的,因为这就是我们根据图像的局部性、平移不变性先验引入的归纳偏置。

但还是老问题:

这种偏置太刚性了。

一个事实是:现实中的大多结构特征往往不是方格,小到弯曲的边缘、不规则纹理、大到人脸特征、动物体型等等。

又或者我们进行了数据增强,让目标发生形变、偏移、旋转、拉伸等等情况,这时重要信息就不再落在这些固定采样点上,从而导致表达能力受限。

虽然随着层级传播感受野会逐渐扩大,但局部感受野始终被定死是规则矩形。 无法改变采样模式本身。
这便是 DCN 要解决的问题,它的基本逻辑和可变形池化相同,但拥有更多细节,实现的效果也更加灵活。

1.2 DCN 的发展和思想

实际上,DCN 并非只有 Deformable Convolutional Networks这一孤篇,这篇起源论文只是它的第一版,我们可以称为 DCNv1 。
提出 DCNv1 的研究团队在 19 年又发布了新的论文:Deformable ConvNets v2: More Deformable, Better Results,进一步引入了 modulation 机制,使得特征采样不仅位置可变,权重也具备自适应能力。
到这还没完,其实之后还有一系列其他基于 DCN 思想的变体,就连注意力机制也有吸收 DCN 思想的变体:Deformable Attention.
总结来说,DCN 这种可学习的采样思路不像我们之前介绍的某些具体模型,它开启了一类可学习采样机制的研究范式,并持续影响至今。

其核心改动和池化同理:在原有采样位置上,引入可学习偏移量。

\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n)\cdot x(p_0 + p_n + \Delta p_n)+b \]

这里的 \(\Delta p_n\) 就是通过一个额外分支预测得到的偏移量。
现在网格的每一个采样点都可以“挪位置”,有的点可能贴近边缘,有的点可能集中在关键区域,就像这样:
image.png

下面就来展开其具体逻辑。

2.DCNv1

就像我们刚刚说的,DCN 的基本逻辑和可变形池化是一样的:

新增一个卷积分支,为每个采样点预测偏移量,再注入取样坐标,通过双线性插值取特征值。

我们展开一些细节:

2.1 偏移学习与注入

DCN 在这步的具体逻辑如下:
image.png

如图所示,假设我们要实现一个 \(3 \times 3\) 的可变形卷积:

  1. 主分支:仍然是传统的卷积核,输出通道数为 \(C_{out}\),负责特征提取。
  2. 偏移分支:输出通道数为 \(2N\)\(N\) 为采样点数,\(3 \times 3 = 9\)),负责预测每个采样点的偏移,即 \(\Delta p_n\)

这里的基本逻辑和上一篇是相同的,就不再赘述了,我们展开两个细节:

2.2 卷积和池化的对齐差异

首先,因为是像素级对齐,我们不再需要像可变形池化那样通过 bin 内采样点的平均池化来聚合特征,得到用于注入的偏移量。
image.png
如图,在 DCN 中:对于每一个空间位置 \((x,y)\),偏移分支可以直接输出该位置对应的 \(\Delta p_n = (\Delta x, \Delta y)\)
因此,每个采样位置都可以独立生成自己的采样偏移,而不像池化里的以 bin 为单位的采样偏移。

2.3 滑动采样的偏差注入

其次还有一点需要强调:

虽然卷积核在特征图上是按照滑动窗口方式逐位置遍历的,但偏移的计算过程并不会随着卷积核的移动而重复执行。

image.png
如图所示,偏移分支在前向传播中仅执行一次卷积运算,就能得到完整的偏移特征图

\[\Delta p \in \mathbb{R}^{2N \times H \times W} \]

之后在实际的可变形卷积计算过程中,卷积核滑动到哪里,就读取哪里对应的偏移进行计算。
在这种设计中,偏移的学习与卷积本身的滑动计算是解耦的。

此外,对于偏移后得到非整数坐标的取值问题,仍然是双线性插值,就不再展开了。

这样我们就实现了可变形卷积,让卷积本身的采样规则不再局限于固定方格,而是在全图内实现理论上的任意组合。
不过,虽然理论上一次运算中的采样点可以天南海北,但因为图像特征的局部性,往往实际学到的偏移量也并不会过大,了解即可。

3. 调制机制(Modulation)

到上一部分结束,我们已经梳理完了 DCNv1 的完整逻辑。
不过,虽然采样位置已经可以通过 \(\Delta p_n\) 进行动态调整,但这里仍然存在一个隐含问题:

所有采样点在聚合时的贡献权重是固定的。

也就是说,即使某些采样点被偏移到了“无效区域”(如背景、边界噪声),它在最终输出中仍然会被同等对待,这在一定程度上限制了模型的表达能力。

为了解决这一问题,DCNv2 在 DCNv1 的基础上引入了一个新的分支:调制分支

其核心思想是:

不仅让采样位置可变,还让每个采样点的“贡献强度”也可学习。

在形式上,DCNv2 的表达可以写为:

\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n)\cdot x(p_0 + p_n + \Delta p_n)\cdot m(p_n) \]

其中, \(m(p_n)\) 就是采样点对应的调制系数。
结构上的改进并不复杂,它的具体逻辑是这样的:
image.png
如图所示,调制分支通过一个额外的卷积层预测:

\[m(p_n) \in [0, 1]^{N \times H \times W} \]

在此基础上,输出通过 Sigmoid 进行约束,使其落在 \([0,1]\) 区间内,作为每个采样点在聚合中的权重。

这里有一个很明显的问题:

卷积层参数本身不就包括权重 \(w\) 吗?为什么还要加一个调制系数?

其实说到底,这是一个粒度问题

  1. 权重 \(w\):是滤波器本身的特性,它对同一个采样位置在不同通道间是共享的。
  2. 调制系数:存在特征图内,它是在同一个采样位置下,对每一个采样点的单独设置

再简单点:权重 \(w\) 是“全局调整”,调制系数是“局部精细调整”。

这种机制让 DCNv2 能够更灵活地选择性关注重要的采样点,进一步提升了对复杂结构的建模能力。

到这里,才是使用 DCN 作为模块的主流结构,后续要么就是工程优化,要么就是变体的内容了。
到本篇为止,大概补充了一些 CNN 自身结构向“自由”的演变过程,之后就会再回到 Attention 相关思路的现代 CNN 结构了。
当然,发展肯定不是一个单线的过程,绝不是说向 Attention 靠拢的就一定是更好的 CNN,在现代 CNN 结构中,仍然有很多不同的研究方向。