——Franka机器人渠道、市场、销售负责
——学术背景来自于哈尔滨工业大学、多伦多大学
全国咨询热线:
400 188 3810
Franka机器人专线
18018175378(同微信)

PNP具身智能解读:Physical Intelligence/斯坦福大学Pi0-FAST:视觉-语言-动作模型的高效动作标记化

发表时间:2025-08-24 18:27作者:PNP机器人

01


摘要

论文提出了一种全新的、基于压缩概念的动作 token 化方法 —— FAST(Frequency-space Action Sequence Tokenization),通过对连续机器人动作序列使用离散余弦变换(DCT)与 Byte-Pair Encoding(BPE)相结合实现高效压缩,显著提升自回归视觉—语言—动作(Vision-Language-Action, VLA)模型在高频操作任务上的训练效率与控制表现。作者还进一步推出了 FAST+,一个训练于百万级真实机器人动作轨迹上的通用 token 化器,并验证其在与 π₀ VLA 集成后在大规模(1万小时)机器人数据训练中的高效与准确性──相比扩散模型训练时间减少达 5 倍,性能可匹配扩散策略。
FAST,这是一种简单而有效的方法,通过时间序列压缩对机器人动作轨迹进行标记化。FAST 支持训练自回归 VLA,用于解决复杂的灵巧操作任务,并广泛推广到新的场景。我们用它来训练π0-FAST,一种通用机器人策略,性能与最先进的π0扩散 VLA 在灵巧和长视野操作任务上表现出色,同时训练速度提高了 5 倍

02


研究背景与动机

1. 自回归 VLA 与动作 token 的挑战
现代 VLA 政策,多数基于 Transformer 的自回归生成结构,能够学习复杂、多样的机器人行为,广泛应用于视觉–语言引导的机器人操控任务中。然而,这类模型的有效训练高度依赖于如何将连续动作信号转换成模型能够处理的离散 token。现有方式通常采用每时间步、每维度独立离散化(称为 naive binning),这种策略在高频动作任务中极易失败,原因包括:
  • 高维多维度下 token 序列冗长:每个时刻多个维度分别离散化,导致 token 总量激增,不利训练效率。
  • 时间维度相关性强:相邻 token 往往相似,模型可以简易地复制前一步 token 来降低损失,从而导致优化陷入局部差、泛化差的问题。
为此,研究者认为需要一种方式,能有效 去相关、压缩 连续动作数据,使 token 更加信息密集与训练友好。
2. 跨维度压缩与 token 化的启发
FAST 的核心思想受图像压缩(如 JPEG)与语言 BPE 的启发:首先基于 频率域压缩 去除冗余,再用 BPE 聚合常见 token 序列,进而实现高效 token 压缩。这种思路旨在打造一种简单、无需修改模型结构即可集成的 action tokenizer。

03


FAST 方法详解

FAST 方法流程如下所示(图示已在开头展示):
归一化(Normalization)将动作数据每一维中训练集的第1与第99百分位数映射到 [-1, 1] 范围,以减少离群值影响并统一尺度。此步骤支持跨不同机器人平台的数据一致处理。
离散余弦变换(DCT)对每一维动作时间序列应用 DCT,将时间域信号转换至频率域。低频分量代表平滑趋势,高频分量代表细节与突变,提取高信息密度信号。
量化压缩(Quantization)对 DCT 后的系数进行 scale-and-round 操作,控制丢失率与压缩率之间的平衡;低权重系数可置零,形成稀疏频域表示。
展开(Flatten)将每个动作 “chunk” 的多个维度的稀疏频率系数展平并按低频优先排列,为下一步编码准备序列。
Byte-Pair Encoding(BPE)对展开后的频率序列应用 BPE,聚合常见的系数子序列为单一 token,大幅减少 token 数量。每个 chunk 结果在 30–60 个 token,相比 naive 方法压缩约 10 倍。
采样率对预测性能的影响。我们在一个教学插值任务上训练了一个小型自回归 Transformer 模型,其中网络必须根据四个圆圈预测黑色虚线曲线。我们发现,使用先前 VLA 中使用的分箱标记方法训练的模型由于高频下连续标记之间存在强相关性,随着底层信号的采样频率增加,预测结果会越来越差。我们基于离散余弦变换 (DCT) 的 FAST 标记化方法解决了这个问题,并在所有采样率下都能实现高质量的预测
最终,这些压缩后的 token 序列被作为自回归模型的输入 / 输出,使得高频、灵巧机器人任务的训练成为可能。

04


FAST+ 通用 Tokenizer

FAST+ 是训练在上百万条真实机器人动作轨迹(1M trajectories)上的通用 action tokenizer。其目标是作为黑箱工具为不同机器人动作空间与频率提供 token 化能力,无需针对每种新机器人重新训练 tokenizer,从而:
  • 实现跨平台通用性(如 UR5、Franka、移动平台)
  • 支持多任务大规模预训练策略(foundation models)
FAST 动作标记化流程概述。给定一组标准化的动作,我们应用离散余弦变换 (DCT) 将信号转换到频域。然后,我们对 DCT 系数进行量化,并使用字节对编码 (BPE) 将平坦化的每维 DCT 系数序列压缩为最终的动作标记序列

05


实验验证与性能对比

1. 与 Naive 方法对比
实验使用 π₀(pi-zero)VLA 框架与 FAST token 化器集成,在多项复杂动作任务上评估效果,包括折叠衣物、整理桌面、打包购物袋等精细任务。结果显示:
  • Naive binning 方法在这些任务上几乎无法成功训练及完成任务
  • FAST 使模型能够胜任这些高频任务,训练效率大幅提升(训练时间减少达 5 倍
2. 扩散模型(Diffusion VLA)对比
标准 π₀ VLA 使用 diffusion 或 flow-matching 来生成连续动作,训练和推理成本高。对比结果如下:
模型类型
训练效率
任务表现
Diffusion based π₀
基准
π₀-FAST
快约 ×5
可匹配扩散模型表现
Scaling Up
FAST token 化后的 π₀-FAST 能在大规模数据训练条件下(如 10,000 小时动作数据)达到与 diffusion 模型相当的精度,却显著节省训练时间。
3. DROID 数据集与 zero-shot 泛化
DROID 是一个公开的多任务、跨场景机器人任务数据集,涵盖从校园建筑到家庭环境的多种任务。研究者应用 FAST 训练出的 generalist 策略,结果显示在 UC Berkeley、Stanford、University of Washington 等不同环境下,可以进行 zero-shot 语言指令执行,展现了强泛化能力。
在 DROID 上训练的 FAST 策略的评估环境 。我们发现相同的策略检查点具有很强的泛化能力,并且在三个大学校园内 零样本执行了各种简单的桌面任务。

优势总结与局限展望
优势:
  • 训练效率显著提升:token 数减少与自回归方式使训练时间缩短达 5 倍。
  • 支持高频、精细控制任务:如折叠衣物、打包等高复杂度任务,具备强性能表现。
  • 跨平台 / 通用性好:通过 FAST+,实现多种机器人平台的统一 token 化支持。
  • 无需修改模型结构:能无缝集成至现有 Transformer VLA模型

文/PNP机器人 转载请申请
PNP机器人是德国FRANKA机器人卓越战略合作伙伴

德国慕尼黑—PNP机器人成为Franka Robotics卓越战略伙伴,推动具身智能机器人全球生态

PNP机器人提供成套具身智能机器人操作和训练平台


具身智能方向:具身智能技术群

Franka机器人:具身智能方案/渠道/商务咨询

FRANKA机器人因其高精度力控与开放式架构,在学术界广泛应用,成为具身智能与操作研究的主流平台。斯坦福、伯克利、CMU等顶尖实验室构建了丰富的软件生态,ROS、MoveIt 等工具无缝集成,使其在 ICRA、IROS、RSS 等顶会中成为最佳论文常用的验证平台。PNP机器人作为 FRANKA 在国内的官方合作伙伴,负责其技术支持、渠道建设与销售,并基于 FRANKA 开发了一系列生态工具,如遥操作、视觉、移动平台等,具身智能方向如有部署需求,可联系 PNP机器人获取支持。
图片

热点文章参考:

PNP&Franka机器人活动

WRC具身觉醒:当机器人初步长出“人类”的直觉——2025世界机器人大会热点讨论纪实

在具身智能火热加持下,看 2025 年机器人学术年会中的热点主题。PNP机器人展示力控、灵巧手捕捉等案例

具身智能在线活动总结:Franka Robotics与PNP机器人在具身智能领域的技术分享

具身直播活动:机器人大讲堂联合PNP机器人关于Franka机器人具身智能专题直播讨论

具身活动总结:PNP机器人在FAIR plus 2025机器人链接会中呈现具身智能机器人数据集和操作等多项技术

中国具身智能大会:具身智能发展迅速,PNP机器人展出和分享感悟全力控感知特点、操作策略局限以及数据采集等

PNP具身智能数据集总结

双臂类人形具身智能方向:一文汇总Franka机器人在科研、医疗等双臂机器人研究案例和双臂方案参考

机器人数据集:一文汇总机器人数据集RoboDataset的意义与机器人数据采集方法

机器人数据集:数据集越来越成为重要具身智能方向的基础设施—PNP机器人近期活动总结

PNP&FRANKA机器人发展

Franka机器人中国业务全新启航——Franka机器人的10个基本问题,一文掌握归来的力控机器人最新产品和趋势

技术要点分享:Franka机器人常见的10个问题——硬件篇,一文干货汇总。

中国具身智能大会:具身智能发展迅速,PNP机器人展出和分享感悟全力控感知特点、操作策略局限以及数据采集等

机器人操作策略

斯坦福大学李飞飞携Franka机器人创业空间智能提ReKep

具身方案和配置:基于“扩散策略”模仿学习训练机器人以及常用配置方案

OpenVLA:7B 参数开源 VLA模型,可以 HuggingFace下载和微调,支持 Open X-Embodiment


<<<  END >>>


关于集智联机器/PNP机器人

集智联机器人(Plug & Play Robotics),简称PNP机器人。PNP机器人团队成员均来自于ABB、Uninversal Robots(优傲机器人)等国内外机器人行业知名企业,学术背景来自于哈尔滨工业大学、多伦多大学、滑铁卢大学等,具有较强的学术背景。PNP机器人致力于为客户提供从硬件到软件的全方位支持,帮助客户快速实现机器人的部署与应用,提升生产效率和智能化水平


PNP机器人成立以来,先后获得“江苏省双创人才”、“姑苏领军”、“崇本领军、“吴江领军”等人才领军企业称号,公司具有较强科研能力,公司持续研发投入拥有技术发明等多项专利,是高新技术企业,科技中小企业;得益于推动在具身智能领域的最新技术和落地,PNP机器人获得”2024年中国科研贡献奖“

PNP机器人在具身智能方向和思灵机器人以及旗下Franka机器人金牌合作,聚焦面向生活和工业场景的单臂/双臂数据采集场景,致力于机器人即插即用(Plug & Play)技术和具身智能通用解决方案。

www.pnprobotics.com   (PNP机器人官方网站)

sales@pnprobotics.com (官方邮箱/Email Add.)

180 1817 5378(微信同号)


关注具身智能,关注PNP公众号

图片

具身智能技术对接/具身群

180 1817 5378(微信同号)

图片

`

Plug & Play Robotics
集智联机器人(苏州)有限公司

联系信息                            联系电话:86 138 1609 4093         联系邮箱:sales@plugplayrobotics.com            联系地址:江苏省苏州市吴江智能制造产业园C1栋