惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Jina AI
Jina AI
Google DeepMind News
Google DeepMind News
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tenable Blog
T
The Exploit Database - CXSecurity.com
Latest news
Latest news
G
GRAHAM CLULEY
Project Zero
Project Zero
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Cyber Attacks, Cyber Crime and Cyber Security
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Webroot Blog
Webroot Blog
Help Net Security
Help Net Security
TaoSecurity Blog
TaoSecurity Blog
Hacker News: Ask HN
Hacker News: Ask HN
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
N
News and Events Feed by Topic
Cisco Talos Blog
Cisco Talos Blog
T
Tor Project blog
The Hacker News
The Hacker News
The Last Watchdog
The Last Watchdog
C
CXSECURITY Database RSS Feed - CXSecurity.com
V2EX - 技术
V2EX - 技术
S
Secure Thoughts
AWS News Blog
AWS News Blog
W
WeLiveSecurity
云风的 BLOG
云风的 BLOG
V
V2EX
Last Week in AI
Last Week in AI
雷峰网
雷峰网
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
G
Google Developers Blog
P
Palo Alto Networks Blog
A
Arctic Wolf
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
M
MIT News - Artificial intelligence
V
Visual Studio Blog
C
CERT Recently Published Vulnerability Notes
WordPress大学
WordPress大学
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Threatpost
Simon Willison's Weblog
Simon Willison's Weblog
PCI Perspectives
PCI Perspectives
量子位
K
Kaspersky official blog
腾讯CDC
Schneier on Security
Schneier on Security
F
Full Disclosure
S
Schneier on Security

StudyingLover's Blog

rwkv笔记 act笔记 nanovllm-block_manager opencode多智能体 nanobot-pre-train nanobot-rl nanobot-sft nanobot-checkpoint_manager nanobot-gpt nanobot-mid-train Vision Mamba (Vim)笔记 BPE演示 最后一遍学习Transformer YOLOv5 目标检测笔记 下载根服务器解析记录 Dynaseal A Backend-Controlled LLM API Key Distribution Scheme with Constrained Invocation Parameters 判断链表有环 王道25数据结构勘误 关于perplexity的open-sourcing-r1-1776 AI为什么不像人类一样进行多轮对话 新博客改造日记和功能测试 linuxqq只显示登陆背景图 数字设计和计算机体系结构(机械工业出版社)勘误(自制) Dynaseal:面向未来端侧llm agent的llm api key分发机制 A Definitive Guide to Markdown Style This post is using MDX, Where you can embed JSX and Astro components RT-Patch学习 pydantic实现的LLM ReAct fastapi 和 uvicorn 设置监听 ipv6 pydantic+openai+json 控制大模型输出的最佳范式 解决 Matplotlib Scatter 不支持 Marker 列表的问题:mscatter 实现 roofline model zhipuAI接口兼容openai 在docker部署fastapi宝塔里使用nginx反代套上cloudflare获取请求的真实ip clion搭建libbpf-bootstrap开发环境 coze+coze-discord-proxy+ChatNextWebUI实现AI自由 安卓内核时间使用的是UTC时间 colab运行google最新开源模型Gemma Sora技术报告 视频生成模型作为世界模拟器 笔记 archlinux flutter开发踩坑 fastapi集成google auth登录 linux下NTFS磁盘报错输入输出错误 Venn-Abers 预测器 基于Venn-Abers预测器的系统日志异常检测方法_顾兆军 手机平板远程访问kvm虚拟机的windows phi-2弱智吧测评 poe的gemini pro或是百度开发 google gemini api使用 google gemini api申请 构建用于复杂数据处理的高效UDP服务器和客户端 matplotlib中文字体渲染 TruFor笔记和代码复现 深入分析:GitHub Trending 项目 "multipleWindow3dScene" pua大模型 ggml教程|mnist手写体识别量化推理 xgboost2.0最佳实践 xgboost使用GPU最佳实践 马踏棋盘 cloudlflare推理llama2 docker搭建elasticsearch并使用python连接 FreeU-文字生成图片的免费午餐笔记 使用xgboost的c接口推理模型 Archlinux使用CMake调用xgboost的c接口 m2cgen生成机器学习c语言推理代码 xgboost模型序列化存储并推理 speculative-sampling笔记 prompt2model笔记 RoboTAP笔记 自建obsidian同步服务 MediaPipe即将推出图像生成服务 Dual-Stream Diffusion Net for Text-to-Video Generation笔记 ViT在DDPM取代UNet(DiT) arch4edu搞崩了我的flutter LISA(推理分割)笔记 在终端绘制GPU显存使用曲线 GPTBot介绍 arch蓝牙无法连接 GPU部署llama-cpp-python(llama.cpp通用) 花式求GCD 使用llama构建一个蜜罐(前端) 使用llama构建一个蜜罐(后端) llama-cpp-python快速上手 快速上手llama2.c(更新版) Paper Gestalt笔记 DINO-v2笔记 快速上手llama2.c AnyDoor笔记 Archlinux安装scrcpy加载共享库出错 error while loading shared libraries:libusb-1.0.so.0:wrong ELF class:ELFCLASS32 npc_gzip笔记 python调用c++函数 Filesystem type ntfs3,ntfs not configured in kernel open_clip编码图像和文本 PicGo配置CloudflareR2图片储存 ArchlinuxGnome快捷键打开终端 clip-interrogator代码解析 GroundingDINO安装报错解决 2023华为鲲鹏畅想日暨西安高新国际会议中心零食午饭测评 RoboMaster开源仓库汇总(长期更新) 没有手都可以在腾讯云创建镜像 I3D笔记
Diffusion Policy笔记
About the Author StudyingLover · 2026-04-10 · via StudyingLover's Blog
  • 专家示范的正确动作具有高概率,也就是低能量
  • 无效的、乱七八糟的动作则具有低概率,也就是高能量
  • 纯随机的噪声,就相当于在这个能量场中处于非常高、非常边缘位置的毫无意义的动作 。

神经网络 ϵθ\epsilon_\theta 并没有被训练去直接输出一个最终动作,而是被训练去预测当前数据里包含的噪声 (确信是ddpm)

流程

image.png

通过摄像头和自身传感器,获取过去 ToT_o 步的连续画面和机器人的本体状态 。

模型要预测未来 TpT_p 步的完整动作轨迹,先在多维动作空间中,凭空生成一段长度为 TpT_p 的纯高斯随机噪声序列,标记为 AtKA_t^K 。此时他们是一堆毫无规律、漫天乱飞的动作指令

接下来循环去噪,系统一共要迭代 KK 次 。在每一次迭代 kk 中(倒计时从 KK 到 1),神经网络 ϵθ\epsilon_\theta 会同时接收三个关键输入:当前的噪声动作序列 AtkA_t^k、第 1 步获取的视觉观察特征 OtO_t(作为引路的条件)、以及当前的去噪进度指示器 kk 。通过ddpm的方式,模型将从当前的 AtkA_t^k 中按一定比例减去噪声,从而得到稍微清晰、平滑一点的序列 Atk−1A_t^{k-1} 。这个过程循环往复 KK 次,初始的纯噪声就被一步步“雕刻”成了一条平滑、精准、且完美符合当前视觉场景的真实动作轨迹 At0A_t^0

虽然模型费尽千辛万苦规划出了未来 TpT_p 步的完美轨迹 At0A_t^0,但机器人并不会一股脑全部执行完 。为了应对物理世界可能发生的突发状况(比如目标突然被碰歪了),机器人只会执行这条轨迹中最前面的 TaT_a 步。然后重新获取最新的视觉画面,进入下一个循环的重新规划 。

其他

CNN 与 Transformer

论文对比了两种截然不同的架构 :

  • CNN 架构: 论文使用一维时序卷积,并通过 FiLM 技术注入视觉特征 。它的优点是开箱即用,不需要太多调参,训练极其稳定 。但缺点是卷积网络容易产生过度平滑(Over-smoothing)效应,在处理需要剧烈速度变化的复杂任务时表现不佳
  • Transformer 架构(挑战高难度): 针对 CNN 的缺点,作者将带噪声的动作序列作为 Token 输入 Transformer 解码器,并将视觉特征通过交叉注意力机制注入 。它在处理高频、极高复杂度的任务时表现出了最强的性能,但代价是对超参数(如丢弃率、权重衰减)非常敏感,训练难度更大

抗干扰

论文在真实的推 T 型块(Push-T)实验中,对机器人进行了严苛的干扰测试 :

  • 视觉遮挡: 实验中途,人用手直接挡住前置摄像头长达 3 秒。虽然机械臂出现了轻微的抖动,但依然依靠之前的序列规划,精准完成了任务 。
  • 物理抢夺: 在机器人即将完成动作时,人突然把 T 型块拨动到了另一个地方 。机器人没有死机,也没有继续对着空气推,而是立刻重新规划路径,甚至改变推的方向,把它弄回目标点 。

论文强调: 这种应对突然物理位移的纠错策略,在人类提供的示范数据中是从未出现过的。模型自己学会了根据画面变化合成新的行为 。

与真实世界的联系

作者通过数学推导证明,在一个简单的线性动力学系统中,如果仅仅让 Diffusion Policy 预测下一步(预测视野 Tp=1T_p=1),它训练出来的去噪器,其行为在数学上会完美等价于经典的 LQR(线性二次型调节器)控制器 。

这意味着,Diffusion Policy 表面上是在模仿画面的动作,但其实它在隐式地学习物理世界的系统动力学规律 。