——Franka机器人渠道、市场、销售负责
——学术背景来自于哈尔滨工业大学、多伦多大学
全国咨询热线:
400 188 3810
Franka机器人专线
18018175378(同微信)

CoRL2025最佳论文Finalist: 加州伯克利DSRL——利用潜在空间强化学习来指导扩散策略

发表时间:2025-10-01 02:31作者:PNP机器人
CoRL2025最佳论文Finalist: 加州伯克利利用潜在空间强化学习来指导扩散策略
提要
论文 Steering Your Diffusion Policy with Latent Space Reinforcement Learning (DSRL) 提出一种新方法,用强化学习在扩散策略(diffusion policy)的潜在噪声(latent noise)空间中进行调控,以改善行为克隆(behavioral cloning, BC)策略在真实机器人大任务中的表现,而无需修改基础模型权重。该方法样本效率高,只需黑箱访问 BC 策略,对仿真与真实场景均有良好效果。总体来看,该工作在将 BC 与 RL 集成、稳定性、应用可移植性方面表现出显著进步。
一、研究背景与动机
在机器人控制与操作任务中,通过人类示范(Behavioral Cloning, BC)学习的策略已经能在许多封闭或受限环境中取得不错效果。不过,在开放世界环境中或未见过的任务中,这些策略的初始表现往往不佳。传统上改进这类策略要么收集更多示范,要么微调(fine-tune)整个模型,但这两者都需要大量资源:时间、人力或数据。
另一方面,强化学习(Reinforcement Learning, RL)具备自主在线改进策略的潜力,但 RL 在真实世界应用往往样本效率低、收敛慢、训练困难。扩散策略(Diffusion Policy)近年来被提出作为一种先进的 BC 方法,它在动作分布(action distribution)的表达上具有良好特性(如能够表示多模态、处理高维动作空间等)。论文的动机是:能否在不修改扩散策略模型权重的情况下,通过某种机制使 BC 策略在现实任务中自己“调节/改进”,同时样本效率高、工程实践可行。
二、方法核心:DSRL 的设计
论文提出的方法叫 Diffusion Steering via Reinforcement Learning(DSRL),核心思想是把扩散策略的潜在噪声(latent noise)视为一种可控变量/动作(action),在这个潜在空间上施加 RL,以引导扩散策略产生更好的行为。具体如下:
在标准扩散策略中,控制流通常是:从某个正态分布采样噪声 w∼N(0,I)w \sim \mathcal{N}(0, I)w∼N(0,I),然后通过逆扩散 (reverse diffusion) 的过程逐步“去噪”,得到最终动作 aaa。BC-训练好的扩散策略将这个过程固定下来。
DSRL 的关键在于,不直接变动模型权重,而训练一个小型“噪声生成器”策略 πW(s)\pi^{\mathcal{W}}(s)πW(s),在状态 sss 下生成噪声 www,替代原来随机噪声采样。这使得在不同状态下,动作分布可被“引导”或“偏移”到更有利于任务成功的方向。
奖励(reward)信号来自任务本身,例如任务成功与否、动作效果、在真实机器人任务中的度量等。
为了提高样本效率,论文还提出利用噪声别名(noise aliasing)与离线数据。所谓噪声别名,是指不同的噪声 www 和 w′w'w′ 经扩散处理后可能产生相同或非常接近的动作 aaa,可以在某种意义上共享经验。离线数据中通常只有状态 sss、动作 aaa、奖励 rrr、下一个状态 s′s's′,没有对应的噪声 www,DSRL 设计了一个机制,从扩散策略中采样或推断 www 与 aaa 的配对,以便将这些离线轨迹用于训练噪声策略。
三、实验设计与真实机器人应用(含 FRANKA 机器人)
为了验证 DSRL 方法的有效性,作者做了多个模拟任务与真实机器人任务的实验。
在模拟基准中,使用 Robomimic、OpenAI Gym 等环境,对比标准扩散策略、微调(fine-tune)扩散策略,以及其他 RL 方法。结果显示,DSRL 在少量样本下(往往几十次交互)就能明显提升任务成功率。
在真实机器人实验中,作者采用 FRANKA 机器人等来执行机械臂操纵任务,如拾取、放置、物体移动等。使用 DSRL 改进 BC 学到的扩散策略,验证其在现实环境中的稳健性。实验表明,在真实 FRANKA 上的任务中,改进后的策略相较于原始 BC 策略有显著提升。PNP 机器人可以面向同类研究的团队提供 FRANKA 机器人的硬件与控制系统技术支持,并协助调试抓取与动作执行的工业级通道与物流流程。快速过渡到真实机器人的部署与线上测试。
作者还考虑了通用性实验(generalist policies):对预训练的策略(比如那些在多任务/多种环境下训练好的政策)进行 DSRL 调整,使它们能更好适应新任务或新环境。该部分同样在模拟与现实中都有验证。
四、性能分析与优点
下面是 DSRL 方法的几个主要优点与性能特点:
高样本效率(Sample Efficiency)相比微调整个扩散策略模型,DSRL 只训练噪声生成器策略,并利用黑箱访问 BC 策略,因此所需的交互次数与时间都大大降低。实验中常常几十次至少量交互就能看到效果。
无需修改原始模型权重这对工程实践非常重要:行为克隆训练好的扩散策略通常很大、复杂;修改权重不仅需要大量计算资源,而且可能引入新的不稳定性。DSRL 避开这些问题,仅通过控制噪声输入来达成行为调整。
黑箱访问与通用性方法只需要能调用 BC 策略以“状态 → 噪声 → 动作”的接口,而不要求内部结构或权重可访问,这使得 DSRL 可以用于那些不开放内部实现或权重的系统。通用性亦体现在可对预训练通用策略做在线适应。
现实任务中改善明显在 FRANKA 机器人上的真实任务、以及多个基准任务中,DSRL 提高了成功率和任务完成质量,验证其不仅在仿真中有效,也能转移到现实环境。工程系统中的细节(抓取、执行误差、环境干扰等)都被考虑进去。
五、局限性与挑战
尽管 DSRL 有诸多优点,但在论文中与实际应用中也存在一些局限与挑战:
奖励设计与稀疏奖励问题:在许多真实任务中,任务成功信号可能稀疏或延迟,这会使 RL 在噪声空间中搜索变慢。如果奖励信号弱或不够信息丰富,学习效率可能大幅下降。
探索性不足:初始 BC 策略可能使动作分布高度集中,可能导致噪声策略初期的探索范围被限制,难以跳出局部最优。虽然噪声别名与离线数据可以帮助,但在极端任务中仍可能不够。
现实环境误差:真实机器人如 FRANKA 在感知、动力学、摩擦、控制精度上都有误差。噪声空间调整可能需要对这些误差较敏感。如果模型在这些误差上没有鲁棒性,可能失败。
计算与部署成本:尽管不修改原策略权重减少了某些开销,但训练噪声策略+一些辅助评估过程仍需计算资源。而将系统从学术实验转为工业部署,还涉及安全性、可靠性、用户界面等非学术问题。
六、未来方向与总结
未来方向
改进奖励结构与反馈机制:引入更丰富的反馈(如视觉/触觉/力觉反馈),或中间奖励以改善样本效率。
提升探索机制与泛化能力:设计更强的探索策略或使用元学习(meta-learning)以便快速适应完全新型任务。
扩展至更多机器人类型与硬件:例如在更大负载、高速或大尺寸任务中测试;不同抓手形式;异构机器人系统。
增强鲁棒性与安全性:使策略在动力学变化、环境干扰、传感误差下依然稳定;加入异常检测与回退机制。
总结
总的来看,Steering Your Diffusion Policy with Latent Space Reinforcement Learning 提出了一种新的、高效、实用的方式来改进 BC 型扩散策略在真实世界任务中的表现。通过在潜在噪声空间中施加 RL 的方式,方法兼顾了样本效率、模型稳定性与部署易用性,且在真实机器人(如 FRANKA)上的实验验证了其落地能力。虽有奖励稀疏、部署误差与探索限制等挑战,但这项工作为行为克隆与扩散策略在真实操作中的自动改进开辟了新的路径。

文/PNP机器人,转载请授权

<<<  END >>>


关于集智联机器/PNP机器人

集智联机器人(Plug & Play Robotics),简称PNP机器人。PNP机器人团队成员均来自于ABB、Uninversal Robots(优傲机器人)等国内外机器人行业知名企业,学术背景来自于哈尔滨工业大学、多伦多大学、滑铁卢大学等,具有较强的学术背景。PNP机器人致力于为客户提供从硬件到软件的全方位支持,帮助客户快速实现机器人的部署与应用,提升生产效率和智能化水平


PNP机器人成立以来,先后获得“江苏省双创人才”、“姑苏领军”、“崇本领军、“吴江领军”等人才领军企业称号,公司具有较强科研能力,公司持续研发投入拥有技术发明等多项专利,是高新技术企业,科技中小企业;得益于推动在具身智能领域的最新技术和落地,PNP机器人获得”2024年中国科研贡献奖“

PNP机器人在具身智能方向和思灵机器人以及旗下Franka机器人金牌合作,聚焦面向生活和工业场景的单臂/双臂数据采集场景,致力于机器人即插即用(Plug & Play)技术和具身智能通用解决方案。

www.pnprobotics.com   (PNP机器人官方网站)

sales@pnprobotics.com (官方邮箱/Email Add.)

180 1817 5378(微信同号)


关注具身智能,关注PNP公众号

图片

具身智能技术对接/具身群

180 1817 5378(微信同号)

图片


Plug & Play Robotics
集智联机器人(苏州)有限公司

联系信息                            联系电话:86 138 1609 4093         联系邮箱:sales@plugplayrobotics.com            联系地址:江苏省苏州市吴江智能制造产业园C1栋