惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News | PayPal Newsroom
云风的 BLOG
云风的 BLOG
GbyAI
GbyAI
Engineering at Meta
Engineering at Meta
B
Blog RSS Feed
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
The Register - Security
The Register - Security
L
LangChain Blog
A
About on SuperTechFans
S
Schneier on Security
博客园 - 三生石上(FineUI控件)
Stack Overflow Blog
Stack Overflow Blog
The Hacker News
The Hacker News
AWS News Blog
AWS News Blog
博客园 - 司徒正美
Scott Helme
Scott Helme
K
Kaspersky official blog
Cyberwarzone
Cyberwarzone
T
Tenable Blog
腾讯CDC
Recorded Future
Recorded Future
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
G
GRAHAM CLULEY
Security Latest
Security Latest
S
Securelist
D
Darknet – Hacking Tools, Hacker News & Cyber Security
aimingoo的专栏
aimingoo的专栏
Google DeepMind News
Google DeepMind News
V
Vulnerabilities – Threatpost
雷峰网
雷峰网
T
The Exploit Database - CXSecurity.com
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
V
V2EX
T
The Blog of Author Tim Ferriss
D
Docker
S
Security Affairs
F
Full Disclosure
Know Your Adversary
Know Your Adversary
N
News and Events Feed by Topic
N
News and Events Feed by Topic
T
Tor Project blog
Hugging Face - Blog
Hugging Face - Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Microsoft Security Blog
Microsoft Security Blog
Simon Willison's Weblog
Simon Willison's Weblog
Recent Announcements
Recent Announcements
博客园_首页
博客园 - 聂微东
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
S
Security @ Cisco Blogs

StudyingLover's Blog

rwkv笔记 act笔记 nanovllm-block_manager opencode多智能体 nanobot-pre-train nanobot-rl nanobot-sft nanobot-checkpoint_manager nanobot-gpt nanobot-mid-train Vision Mamba (Vim)笔记 BPE演示 最后一遍学习Transformer YOLOv5 目标检测笔记 下载根服务器解析记录 Dynaseal A Backend-Controlled LLM API Key Distribution Scheme with Constrained Invocation Parameters 判断链表有环 王道25数据结构勘误 关于perplexity的open-sourcing-r1-1776 AI为什么不像人类一样进行多轮对话 新博客改造日记和功能测试 linuxqq只显示登陆背景图 数字设计和计算机体系结构(机械工业出版社)勘误(自制) Dynaseal:面向未来端侧llm agent的llm api key分发机制 A Definitive Guide to Markdown Style This post is using MDX, Where you can embed JSX and Astro components RT-Patch学习 pydantic实现的LLM ReAct fastapi 和 uvicorn 设置监听 ipv6 pydantic+openai+json 控制大模型输出的最佳范式 解决 Matplotlib Scatter 不支持 Marker 列表的问题:mscatter 实现 roofline model zhipuAI接口兼容openai 在docker部署fastapi宝塔里使用nginx反代套上cloudflare获取请求的真实ip clion搭建libbpf-bootstrap开发环境 coze+coze-discord-proxy+ChatNextWebUI实现AI自由 安卓内核时间使用的是UTC时间 colab运行google最新开源模型Gemma Sora技术报告 视频生成模型作为世界模拟器 笔记 archlinux flutter开发踩坑 fastapi集成google auth登录 linux下NTFS磁盘报错输入输出错误 Venn-Abers 预测器 基于Venn-Abers预测器的系统日志异常检测方法_顾兆军 手机平板远程访问kvm虚拟机的windows phi-2弱智吧测评 poe的gemini pro或是百度开发 google gemini api使用 google gemini api申请 构建用于复杂数据处理的高效UDP服务器和客户端 matplotlib中文字体渲染 TruFor笔记和代码复现 深入分析:GitHub Trending 项目 "multipleWindow3dScene" pua大模型 ggml教程|mnist手写体识别量化推理 xgboost2.0最佳实践 xgboost使用GPU最佳实践 马踏棋盘 cloudlflare推理llama2 docker搭建elasticsearch并使用python连接 FreeU-文字生成图片的免费午餐笔记 使用xgboost的c接口推理模型 Archlinux使用CMake调用xgboost的c接口 m2cgen生成机器学习c语言推理代码 xgboost模型序列化存储并推理 speculative-sampling笔记 prompt2model笔记 RoboTAP笔记 自建obsidian同步服务 MediaPipe即将推出图像生成服务 Dual-Stream Diffusion Net for Text-to-Video Generation笔记 ViT在DDPM取代UNet(DiT) arch4edu搞崩了我的flutter LISA(推理分割)笔记 在终端绘制GPU显存使用曲线 GPTBot介绍 arch蓝牙无法连接 GPU部署llama-cpp-python(llama.cpp通用) 花式求GCD 使用llama构建一个蜜罐(前端) 使用llama构建一个蜜罐(后端) llama-cpp-python快速上手 快速上手llama2.c(更新版) Paper Gestalt笔记 DINO-v2笔记 快速上手llama2.c AnyDoor笔记 Archlinux安装scrcpy加载共享库出错 error while loading shared libraries:libusb-1.0.so.0:wrong ELF class:ELFCLASS32 npc_gzip笔记 python调用c++函数 Filesystem type ntfs3,ntfs not configured in kernel open_clip编码图像和文本 PicGo配置CloudflareR2图片储存 ArchlinuxGnome快捷键打开终端 clip-interrogator代码解析 GroundingDINO安装报错解决 2023华为鲲鹏畅想日暨西安高新国际会议中心零食午饭测评 RoboMaster开源仓库汇总(长期更新) 没有手都可以在腾讯云创建镜像 I3D笔记
Diffusion Policy笔记
About the Author StudyingLover · 2026-04-10 · via StudyingLover's Blog
  • 专家示范的正确动作具有高概率,也就是低能量
  • 无效的、乱七八糟的动作则具有低概率,也就是高能量
  • 纯随机的噪声,就相当于在这个能量场中处于非常高、非常边缘位置的毫无意义的动作 。

神经网络 ϵθ\epsilon_\theta 并没有被训练去直接输出一个最终动作,而是被训练去预测当前数据里包含的噪声 (确信是ddpm)

流程

image.png

通过摄像头和自身传感器,获取过去 ToT_o 步的连续画面和机器人的本体状态 。

模型要预测未来 TpT_p 步的完整动作轨迹,先在多维动作空间中,凭空生成一段长度为 TpT_p 的纯高斯随机噪声序列,标记为 AtKA_t^K 。此时他们是一堆毫无规律、漫天乱飞的动作指令

接下来循环去噪,系统一共要迭代 KK 次 。在每一次迭代 kk 中(倒计时从 KK 到 1),神经网络 ϵθ\epsilon_\theta 会同时接收三个关键输入:当前的噪声动作序列 AtkA_t^k、第 1 步获取的视觉观察特征 OtO_t(作为引路的条件)、以及当前的去噪进度指示器 kk 。通过ddpm的方式,模型将从当前的 AtkA_t^k 中按一定比例减去噪声,从而得到稍微清晰、平滑一点的序列 Atk−1A_t^{k-1} 。这个过程循环往复 KK 次,初始的纯噪声就被一步步“雕刻”成了一条平滑、精准、且完美符合当前视觉场景的真实动作轨迹 At0A_t^0

虽然模型费尽千辛万苦规划出了未来 TpT_p 步的完美轨迹 At0A_t^0,但机器人并不会一股脑全部执行完 。为了应对物理世界可能发生的突发状况(比如目标突然被碰歪了),机器人只会执行这条轨迹中最前面的 TaT_a 步。然后重新获取最新的视觉画面,进入下一个循环的重新规划 。

其他

CNN 与 Transformer

论文对比了两种截然不同的架构 :

  • CNN 架构: 论文使用一维时序卷积,并通过 FiLM 技术注入视觉特征 。它的优点是开箱即用,不需要太多调参,训练极其稳定 。但缺点是卷积网络容易产生过度平滑(Over-smoothing)效应,在处理需要剧烈速度变化的复杂任务时表现不佳
  • Transformer 架构(挑战高难度): 针对 CNN 的缺点,作者将带噪声的动作序列作为 Token 输入 Transformer 解码器,并将视觉特征通过交叉注意力机制注入 。它在处理高频、极高复杂度的任务时表现出了最强的性能,但代价是对超参数(如丢弃率、权重衰减)非常敏感,训练难度更大

抗干扰

论文在真实的推 T 型块(Push-T)实验中,对机器人进行了严苛的干扰测试 :

  • 视觉遮挡: 实验中途,人用手直接挡住前置摄像头长达 3 秒。虽然机械臂出现了轻微的抖动,但依然依靠之前的序列规划,精准完成了任务 。
  • 物理抢夺: 在机器人即将完成动作时,人突然把 T 型块拨动到了另一个地方 。机器人没有死机,也没有继续对着空气推,而是立刻重新规划路径,甚至改变推的方向,把它弄回目标点 。

论文强调: 这种应对突然物理位移的纠错策略,在人类提供的示范数据中是从未出现过的。模型自己学会了根据画面变化合成新的行为 。

与真实世界的联系

作者通过数学推导证明,在一个简单的线性动力学系统中,如果仅仅让 Diffusion Policy 预测下一步(预测视野 Tp=1T_p=1),它训练出来的去噪器,其行为在数学上会完美等价于经典的 LQR(线性二次型调节器)控制器 。

这意味着,Diffusion Policy 表面上是在模仿画面的动作,但其实它在隐式地学习物理世界的系统动力学规律 。