RL Token: Bootstrapping Online RL with Vision-Language-Action Models

论文信息 - 作者:Charles Xu, Jost Tobias Springenberg, Michael Equi, Ali Amin, Adnan Esmail, Sergey Levine, Liyiming Ke - 通讯作者:Physical Intelligence(PI) - 投稿方向:投稿(under review,IEEEtran conference 格式,匿名评审) - arXiv ID:arXiv:2604.23073v1 - 代码:未公开


一、核心问题

机器人 VLA(Vision-Language-Action)模型虽然在大规模预训练后展现出广泛的泛化操作能力,但在精密任务的"最后一毫米"阶段经常力不从心:动作速度慢、需要反复停顿和重试、关键接触阶段的微小偏差会累积为整体失败。

现有的改进方案各有利弊:

  1. 全模型 RL 微调(如 RECAP、DPPO):更新整个 VLA 的参数,在真实机器人上数小时内难以收敛,计算和样本效率都很低
  2. 小模型样本高效 RL(如 HIL-SERL、RL$^{100}$):在标准视觉编码器(如 ResNet)上训练小规模 RL 策略,学习速度快但完全放弃了大 VLA 模型中的丰富行为先验

核心洞察:不需要在"大模型慢 RL "和"小模型快 RL"之间二选一——可以让冻结的 VLA 提供感知表征和行为先验,让轻量级 RL 网络在在线实践中做快速局部精调。


二、核心思路 / 方法

RLT(RL Token)提出了一种简洁的"分工"架构:冻结的 VLA 负责提供广域感知理解和参考动作建议,轻量级的 Actor-Critic 负责在关键任务阶段做在线精调。整个方法建立在三个核心设计之上。

2.1 整体架构:VLA + RL Token + 轻量 RL 头

图1:RLT 系统总览

图1:RLT 系统总览。该方法在 VLA 中引入"RL Token"——通过训练编码器-解码器从 VLA 内部特征中产生紧凑且有意义的表示。提取的表示随后用于训练轻量级 Actor-Critic 网络进行样本高效的在线 RL,使精密任务能在数小时甚至数分钟的真实机器人经验中完成精调。

子图解读: 该图展示了 RLT 方法的两个阶段。第一阶段(离线,GPU 上):在少量任务演示数据上训练一个编码器-解码器 transformer 来提取 RL Token,将 VLA 高维内部 token 嵌入压缩为紧凑表示向量;第二阶段(在线,机器人上):冻结 VLA 和 RL Token 提取器,仅训练一个小型 MLP 构成的 Actor-Critic,以 RL Token 为状态表示、以 VLA 参考动作为条件输入,在真实交互中快速精调策略。下排从左到右展示了 RLT 策略在四个任务上的执行效果——螺丝安装、扎带紧固、以太网插入和充电器插入。

2.2 RL Token:用信息瓶颈压缩 VLA 知识

VLA 内部 transformer 的 token 嵌入是高维的(每层每个 token 都有嵌入向量),直接用作 RL 状态表示计算效率太低。RLT 的核心创新是训练一个编码器-解码器(encoder-decoder)结构,利用信息瓶颈原理将 VLA 的全部 token 嵌入压缩为一个紧凑的 RL Token。

图2:RL Token 架构细节

图2:RL Token 提取的架构细节。RLT 在预训练 VLA 上添加一个编码器-解码器 transformer。编码器将 VLA 的 token 嵌入序列加上一个可学习的 <rl> token 嵌入,输出 RL Token(即 <rl> 位置的编码器输出);解码器以自回归方式从 RL Token 重建原始 token 嵌入,重建 MSE 作为训练损失。

子图解读: 图中上半部分展示了 VLA 的标准工作流程——多路相机图像经过 VLM Backbone 得到 token 嵌入,Action Expert(diffusion 模型)基于 token 嵌入生成动作块。图中下半部分展示了 RL Token 提取模块——Encoder Transformer 接收 VLA 的 token 嵌入序列和可学习的 RL token 嵌入,输出 RL Token(z_rl);Decoder Transformer 以 RL Token 为条件,自回归地预测原始 VLA token 嵌入。通过 stop-gradient 操作,VLA 参数在重建损失上不被更新——重建损失仅训练编码器-解码器参数 φ。训练完成后,整个编码器-解码器冻结,RL 阶段仅使用 z_rl 作为状态表示。

具体地,设 $\mathbf{z} = f(s,\ell;\theta_{\text{vla}})$ 为 VLA 最后一层的 token 嵌入序列 $\mathbf{z}_{1:M}$。在序列末尾追加一个可学习的嵌入 $\mathbf{e}_\texttt{rl}$,经过小型编码器 transformer $g_\phi$ 得到 RL Token:

$$\mathbf{z}_{\text{rl}} = g_\phi\!\bigl([\mathbf{z}_{1:M},\;\mathbf{e}_\texttt{rl}]\bigr)_{M+1}$$

解码器 $d_\phi$ 以 RL Token 为条件,自回归地重建原始嵌入(使用 stop-gradient $\bar{\mathbf{z}}_i = \mathrm{sg}(\mathbf{z}_i)$):

$$\mathcal{L}_{\text{ro}} = \mathbb{E}_{\mathcal{D}}\!\Bigl[\,\sum_{i=1}^{M}\bigl\lVert h_\phi\bigl(d_\phi([\mathbf{z}_{\text{rl}},\,\bar{\mathbf{z}}_{1:i-1}])\bigr)_{\!i} - \bar{\mathbf{z}}_i \bigr\rVert^2\,\Bigr]$$

为什么用瓶颈(autoencoder)结构? 强制 z_rl 保留足够重建全部 token 的信息,信息瓶颈保证了压缩后的表示仍然富含任务相关特征——需要能重建出来的信息才被保留。

2.3 在线 RL 的三个关键设计

VLA 原生输出 $H=50$ 步(1 秒)的动作块 $\tilde{\mathbf{a}}_{1:H}$。RL 阶段使用更短的块长 $C=10$(0.2 秒),使策略更反应灵敏。

设计 1 — 以 VLA 参考动作为条件的 Actor(Pass-Through):

Actor 不仅接收 RL 状态 $\mathbf{x} = (\mathbf{z}_\text{rl}, \mathbf{s}^\text{p})$,还显式接收 VLA 采样的参考动作块作为输入:

$$\pi_\theta(\mathbf{a}_{1:C} \mid \mathbf{x}, \tilde{\mathbf{a}}_{1:C}) = \mathcal{N}\big(\mu_\theta(\mathbf{x}, \tilde{\mathbf{a}}_{1:C}), \sigma^2 \mathbf{I}\big)$$

这样做的好处是双重的:(1) Actor 在 VLA 的好方案上做局部优化而非从零探索,(2) 保留了 VLA 多模态动作分布中的模式信息——Gaussian Actor 本身是单模态的,但通过条件化于采样的参考动作,可以恢复 VLA 的多模态行为。

设计 2 — 行为正则化(BC Regularizer):

Actor 训练目标是最大化 Critic 值同时保持与 VLA 参考动作的接近:

$$\mathcal{L}_{\pi}(\theta) = \mathbb{E}\left[-Q_\psi(\mathbf{x}, \mathbf{a}_{1:C}) + \beta \|\mathbf{a}_{1:C} - \tilde{\mathbf{a}}_{1:C}\|_2^2\right]$$

其中 $\beta$ 控制正则化强度。这本质上是 KL 正则化 RL 的 L2 变体,将在线 RL 变成对 VLA 建议动作的"局部编辑"而非在整个动作空间中无约束搜索。消融实验中去除该项($\beta=0$)导致性能最大幅下降,验证了它的关键作用。

设计 3 — 参考动作 Dropout:

一个实际失败模式是:Actor 可能学会直接复制 $\tilde{\mathbf{a}}$ 而不做任何改进(尤其在训练初期 Critic 尚未提供有用信号时)。RLT 的解决方案是:训练时对 50% 的 batch 样本将参考动作替换为零向量,强迫 Actor 建立独立的动作生成通路;推理时始终提供完整参考动作。

2.4 Critic 的块级 TD 学习

Critic 操作在块级(chunk level),训练目标为标准 TD 学习:

$$\hat{Q} = \sum_{t'=1}^{C} \gamma^{t'-1} r_{t'} + \gamma^C \mathbb{E}_{\mathbf{a}' \sim \pi_\theta}\big[Q_{\psi'}(\mathbf{x}', \mathbf{a}')\big]$$

$$\mathcal{L}_Q = \mathbb{E}_{(\mathbf{x}, \mathbf{a}_{1:C}, \mathbf{x}') \sim \mathcal{B}}\big[(\hat{Q} - Q_\psi(\mathbf{x}, \mathbf{a}_{1:C}))^2\big]$$

块级设计的核心价值: 动作块(C=10)将有效决策 horizon 从数百步压缩到约 25 步,使稀疏二进制奖励(仅在 episode 结束时提供 +1/0)下的 TD 信用分配变得可行。对比实验中,单步方法(HIL-SERL、PLD)在 50Hz、数百步的任务上完全失败或性能很差,直接验证了这一点。


三、训练过程

3.1 准备阶段:RL Token 训练 + VLA 微调

  1. 收集任务演示:对目标任务收集 1-10 小时遥操作演示数据 $\mathcal{D}$
  2. 训练 RL Token:在 $\mathcal{D}$ 上训练编码器-解码器参数 $\phi$,VLA 参数 $\theta_\text{vla}$ 在重建损失上冻结(stop-gradient)。训练 2000-10000 梯度步
  3. (可选)SFT 微调 VLA:联合优化 $\mathcal{L}_{\text{ro}}(\phi) + \alpha \mathcal{L}_{\text{vla}}(\theta_\text{vla})$,其中 $\alpha > 0$ 时 VLA 也参与微调得到更好的初始策略
  4. 冻结:完成后,VLA 和 RL Token 提取器全部冻结

3.2 在线 RL 阶段

┌──────────────────────────────────────────────────────────────┐
│                   RLT 在线 RL 训练循环                         │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  【Warmup(约 5 分钟)】                                       │
│  用纯 VLA 策略收集 N_warm 步经验,人类标注成功/失败标签         │
│  → 预填充 Replay Buffer,给 Critic 提供初始学习信号             │
│                                                              │
│  【主循环】每 C=10 步(0.2s)执行一次:                         │
│                                                              │
│  ┌─ 1. VLA 推理 ─────────────────────────────────────────┐   │
│  │   ã_{1:H} ~ π_vla(s_t, ℓ)    // VLA 输出参考动作块     │   │
│  │   z_rl = encoder(vla_embeddings, e_rl)[-1]             │   │
│  │   x = (z_rl, s^p_t)           // 拼接 RL 状态          │   │
│  └───────────────────────────────────────────────────────┘   │
│                                                              │
│  ┌─ 2. 动作选择 ─────────────────────────────────────────┐   │
│  │   if human_intervention:                               │   │
│  │     a_{1:C} = a^human_{1:C}    // 人类遥操作覆盖       │   │
│  │   elif step < N_warm:                                   │   │
│  │     a_{1:C} = ã_{1:C}          // warmup 用 VLA 动作   │   │
│  │   else:                                                │   │
│  │     a_{1:C} ~ π_θ(·|x, ã_{1:C}) // Actor 精调动作      │   │
│  └───────────────────────────────────────────────────────┘   │
│                                                              │
│  ┌─ 3. 执行 & 存储 ──────────────────────────────────────┐   │
│  │   执行 a_{1:C},观察 r_t, s_{t+1}, s^p_{t+1}            │   │
│  │   若人类干预:将 ã 替换为遥操作动作                       │   │
│  │   子采样(每 2 步存一次)→ Replay Buffer B               │   │
│  └───────────────────────────────────────────────────────┘   │
│                                                              │
│  ┌─ 4. 离线策略更新(G=5 轮,每轮:2×Critic + 1×Actor)──┐   │
│  │   采样 batch ~ B                                        │   │
│  │   ŷ = Σγ^{t-1}r_t + γ^C min_i Q_ψ'_i(x', a')           │   │
│  │   L_Q = E[(ŷ - Q_ψ(x, a))²]       // Critic TD 学习    │   │
│  │   L_π = E[-Q_ψ(x, a) + β||a - ã||²] // Actor 最大化 Q  │   │
│  │   其中 50% 样本的 ã 被置零(参考动作 dropout)            │   │
│  └───────────────────────────────────────────────────────┘   │
│                                                              │
│  【关键阶段切换】                                              │
│  - 任务前期(抓取、搬运等):VLA 基础策略执行                   │
│  - 达到关键阶段(插拔、拧紧等):人类触发 RL 策略接管            │
│  - 训练末期可学习自动切换(以人类干预为标签做分类)              │
└──────────────────────────────────────────────────────────────┘

3.3 训练配置

配置项 设置
VLA 基座 $\pi_{0.6}$(Physical Intelligence)
控制频率 50 Hz
每步动作维度 14
VLA 动作块长(H) 50 步(1 秒),执行前 20 步后重规划
RL 动作块长(C) 10 步(0.2 秒)
RL 动作空间维度 $C \times d = 140$
Actor 网络 简单任务:2 层 MLP,hidden=256;困难任务:3 层 MLP,hidden=512
Critic 网络 双 Q 网络(TD3 风格),取 min 计算 target
策略分布 高斯策略,固定小标准差 $\sigma$
更新-数据比(UTD) 5(每步交互做 5 轮梯度更新)
子采样步长 2(每秒约 25 个样本)
参考动作 dropout 率 50%(训练时),0%(推理时)
单任务 RL 训练时长 1-2 小时墙钟时间
单任务 RL episode 数 400-1000
实际机器人数据量 约 15 分钟至 5 小时
奖励信号 稀疏二进制:episode 结束时人类标注成功(+1)或失败(0)

四、实验与结果

4.1 任务设置

四项真实机器人操作任务,每项包含一个精密关键阶段(5-20 秒,250-1000 控制步):

图3:四个实验任务

图3:四个实验任务及其关键阶段。从上到下:(1) Screw Installation(螺丝安装)——用电钻将 M3 螺丝拧入螺纹座,需要亚毫米对齐,钻头与夹持点 10cm 力臂放大任何旋转误差;(2) Zip Tie Fastening(扎带紧固)——将扎带尾部穿过窄锁槽,涉及双臂协调和可变形物体;(3) Ethernet Insertion(以太网口插入)——将 RJ45 水晶头插入凹入端口,需要精确的位置和角度对齐以及果断的插入动作;(4) Charger Insertion(充电器插入)——将充电器插入插线板,插脚和插孔可见性差。

任务 精密关键阶段 核心难点
Screw Installation 电钻对准螺丝并拧入 亚毫米对齐;力臂放大误差;视觉线索仅在腕部相机可见
Zip Tie Fastening 扎带尾端穿入锁槽 双臂协调 + 可变形物体 + 毫米精度
Ethernet Insertion 水晶头插入凹入端口 位置+角度双重对齐,接触动力学高度敏感
Charger Insertion 充电器插入插线板 厘米级对齐,插脚/插孔可见性差,易反复试探

评估方式: (1) 受控关键阶段评估——episode 从关键阶段前的随机初始化状态开始,排除前置阶段的方差干扰,每个方法 50 次评估;(2) 全任务评估——从机器人起始姿态开始,由 VLA 基础策略执行前置阶段,RL 策略接管关键阶段,引入前置策略产生的状态分布偏移。

4.2 Q1:RLT 能否提升基础 VLA 策略?

图4:吞吐量对比

图4:RLT 在四个任务关键阶段上的吞吐量(成功完成任务数/10 分钟)对比。横轴为任务,按难度分为两组——简单任务(Charger、Ethernet)和困难任务(Screwdriver、Zip Tie),纵轴为吞吐量。

子图解读: 图中对比了 VLA Policy(基础策略)和 RLT(Ours)在所有四个任务上的吞吐量。

图5:成功率对比

图5:RLT 在四个任务上的成功率对比。横轴为任务,纵轴为成功率(Success Rate)。

子图解读: 图中对比了三个版本——VLA Policy(基础策略)、RLT(受控关键阶段评估)和 RLT Full-Task(全任务评估,仅在 Screwdriver 和 Zip Tie 上)。

核心发现: RLT 会在 VLA 已经做得很好的地方保持性能(不造成regression),在 VLA 不够好的地方显著改进。

4.3 Q2:与其他 RL 方法对比

图6:方法对比

图6:RLT 与其他四种 RL/IL 方法在 Ethernet 任务上的对比。横轴为成功率(Success Rate),纵轴为吞吐量(Throughput)。

子图解读: 五个方法在二维散点图中的位置直观反映了成功率与速度的 trade-off:

4.4 Q3:各组件消融

图7:消融实验-吞吐量学习曲线

图7:五个消融变体在 Ethernet 任务上的吞吐量学习曲线。横轴为训练数据量(从 0-5 min 到 25-30 min),纵轴为吞吐量。

子图解读: 从左到右按训练数据量递增,每条曲线代表一个变体:

图8:消融实验-成功率学习曲线

图8:消融变体在 Ethernet 任务上的成功率学习曲线。横轴为训练数据量,纵轴为成功率。

子图解读:

综合结论: 四个组件——RL Token、Action Chunk、BC Regularizer、Reference Pass-Through——均有实质贡献,其中 Chunk 和 BC Regularizer 是不可或缺的(缺少则方法完全失效),RL Token 和 Pass-Through 是重要的加速器和性能放大器。

4.5 Q4:Emergent Strategy —— 超越人类

图9:速度分布直方图

图9:Ethernet 任务关键阶段的用时分布直方图。三个分布——绿色:人类遥操作演示(16 次),蓝色:基础 VLA 策略(50 次),黄色:RLT 策略在关键阶段的表现(84 次)。横轴为完成用时(用时越短越好)。

子图解读: 这是论文最具启发性的图之一,直观展示了 RLT 的 emergent strategy 超越了人类的可能性。


五、关键洞察与技术亮点

  1. 信息瓶颈 RL Token vs 通用视觉编码器:RLT 的编码器-解码器设计本质上是 autoencoder 范式——只需能重建 VLA token 嵌入的信息才被保留在 RL Token 中。这比用 ImageNet 预训练的 ResNet(通用计算机视觉特征)更有效地保留了操作任务相关的特征结构(消融实验中吞吐量差 50%)。

  2. "局部编辑"优于"全局搜索":三个机制——(a) 参考动作作为 Actor 输入条件、(b) BC Regularizer L2 惩罚、(c) 50% 参考动作 dropout——形成精巧的"锚定-探索"平衡。正则化和条件化提供锚点,dropout 防止 Actor 过度依赖锚点。这比隐空间噪声 RL(DSRL,探索被限制在 VLA 模式内)或纯残差 RL(PLD,残差尺度难调)都更灵活。

  3. 块级 RL 是长 horizon 稀疏奖励下可行的关键:C=10 的动作块将 horizon 压缩约 10 倍,使 TD 学习的信用分配成为可能。单步方法在 50Hz、250+ 步的任务上的完全失败,是来自真实机器人实验的强证据。

  4. RL 可以发现超越人类演示的策略:RLT 发现的一气呵成插入策略在演示数据中不存在。这为"RL over imitation"提供了罕见的真实世界实证——大多数 RL for robotics 的工作在仿真中展示 emergent behavior,RLT 在真实机器人上做到了。

  5. 非对称设计降低部署门槛:VLA 完全冻结、仅训练小 MLP——这使得在真实机器人上做 RL 的计算开销极低。异步 rollout 和训练进一步提升了效率。


六、代码实现解读

论文未提供公开代码。以下基于论文方法描述和 Algorithm 1 还原核心架构。

6.1 整体推理流程

┌──────────────────────────────────────────────────────────────────────┐
│                        RLT 推理流程                                    │
├──────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  ┌──────────┐    ┌────────────────┐    ┌─────────────────────────┐  │
│  │ 多路相机  │───▶│  VLA Backbone  │───▶│  RL Token 提取器          │  │
│  │ (最多4路) │    │  (π₀.₆, 冻结)  │    │  (Encoder g_φ, 冻结)     │  │
│  │ 语言指令  │    │                │    │                          │  │
│  │ 本体感知  │    │  VLM Backbone  │    │  [z₁,...,z_M, e_rl]       │  │
│  └──────────┘    │    ↓           │    │       ↓                   │  │
│                  │  z_{1:M}       │    │     z_rl                  │  │
│                  │    ↓           │    └──────────┬────────────────┘  │
│                  │  Action Expert │               │                   │
│                  │  (Diffusion)   │               │                   │
│                  │    ↓           │               │                   │
│                  │  ã_{1:H}       │               │                   │
│                  └───────┬────────┘               │                   │
│                          │                        │                   │
│                          │ ã_{1:C}                │ z_rl              │
│                          │ (截取前 C 步)           │                   │
│                          ▼                        ▼                   │
│                  ┌─────────────────────────────────────┐              │
│                  │          输入拼接                     │              │
│                  │    x = (z_rl, s^p, ã_{1:C})         │              │
│                  └─────────────────┬───────────────────┘              │
│                                    │                                  │
│                                    ▼                                  │
│                  ┌────────────────────────────────────┐               │
│                  │   Actor π_θ (2-3层 MLP, 在线训练)    │               │
│                  │                                    │               │
│                  │   推理:μ_θ(x, ã)                   │               │
│                  │   采样:a_{1:C} ~ N(μ_θ, σ²I)      │               │
│                  │   (推理时 ã 始终提供)                │               │
│                  └────────────────┬───────────────────┘               │
│                                   │                                   │
│                                   ▼                                   │
│                  ┌────────────────────────────────────┐               │
│                  │   执行 a_{1:C} (10步, 0.2秒)        │               │
│                  └────────────────────────────────────┘               │
└──────────────────────────────────────────────────────────────────────┘

6.2 训练时的 Actor-Critic 架构

┌──────────────────────────────────────────────────────────┐
│              离线训练(从 Replay Buffer 采样)              │
├──────────────────────────────────────────────────────────┤
│                                                          │
│   Batch 采样: {x, a_exec, ã_ref, r, x'}_i                │
│                                                          │
│   ┌─ Critic 更新 (每次 2 步) ─────────────────────────┐  │
│   │                                                    │  │
│   │  Q_ψ₁(x, a_exec) ──→ Q₁                            │  │
│   │  Q_ψ₂(x, a_exec) ──→ Q₂                            │  │
│   │                                                    │  │
│   │  a' ~ π_θ(·|x', ã'_ref)     // 目标动作采样        │  │
│   │  Q_target = r + γ^C min(Q'_ψ₁(x', a'), Q'_ψ₂)     │  │
│   │                                                    │  │
│   │  L_Q = MSE(Q₁, Q_target) + MSE(Q₂, Q_target)      │  │
│   └────────────────────────────────────────────────────┘  │
│                                                          │
│   ┌─ Actor 更新 (每次 1 步) ──────────────────────────┐  │
│   │                                                    │  │
│   │  if random() < 0.5:                                │  │
│   │      ã_input = zeros_like(ã_ref)  // dropout      │  │
│   │  else:                                             │  │
│   │      ã_input = ã_ref                               │  │
│   │                                                    │  │
│   │  a ~ π_θ(·|x, ã_input)     // 前向 + 重参数化采样  │  │
│   │  L_π = -min(Q_ψ₁(x,a), Q_ψ₂(x,a))                │  │
│   │        + β * ||a - ã_ref||²                       │  │
│   └────────────────────────────────────────────────────┘  │
└──────────────────────────────────────────────────────────┘

6.3 公式 → 实现映射

论文公式/描述 伪代码实现
RL Token 提取 (Eq.1) z_rl = encoder_g([vla_embeddings, e_rl])[-1]
重建损失 (Eq.2) L_ro = MSE(decoder_d(z_rl, sg(vla_embeddings)), vla_embeddings)
Actor 前向 (Eq.3) mu = actor_mlp(concat(z_rl, proprio, ref_action))a = mu + sigma * randn
Actor 损失 (Eq.4) L_pi = -critic(x, a).mean() + beta * ((a - ref_action)**2).sum()
Critic 损失 (Eq.5) target = reward + gamma**C * target_critic(x', a').min()L_Q = F.mse_loss(Q, target)
参考动作 dropout ref_input = ref_action if rand() > 0.5 else torch.zeros_like(ref_action)

6.4 关键超参数

参数 说明
VLA 模型 $\pi_{0.6}$ Physical Intelligence
控制频率 50 Hz --
每步动作维度 d 14 --
VLA 块长 H 50 步 (1s) 执行前 20 步后重规划
RL 块长 C 10 步 (0.2s) 每 10 步做一次决策
RL 动作维度 C × d = 140 --
更新-数据比 G 5 每步交互 5 轮更新
Critic 集成 2 个 Q 函数 取 min 计算 target
子采样步长 2 每秒 ~25 个样本
Actor 结构 2-3 层 MLP, 256-512 简单任务 2 层,困难任务 3 层
参考动作 dropout 50% 仅训练时,推理时为 0%
RL 训练步数 400-1000 episodes 1-2 小时墙钟
演示数据量 1-10 小时 仅用于准备阶段
RL Token 训练步数 2000-10000 仅准备阶段

七、局限性

  1. 人类监督依赖:训练过程中需要人类提供三个信号——(a) 稀疏成功/失败标签(奖励)、(b) 遥操作干预(安全 + 数据增强)、(c) 基础策略 ↔ RL 策略的切换时机。论文指出可用 reward model、进度预测和自动切换策略来减少人工,但目前尚未实现。

  2. RL Token 的任务特异性:当前 RL Token 在每个任务上单独训练,跨任务或跨机器人形态的迁移仍是一个开放问题。如果能像基础 VLA 一样预训练一个任务通用的 RL Token,将大幅减少准备阶段的开销。

  3. 数据飞轮未闭合:论文在注释掉的章节中提到了将 RL 收集的高质量轨迹蒸馏回基础 VLA 的构思(数据飞轮),但未在正文章节中展示相关实验。这仍然是 RLT 与 RECAP 等全模型 RL 方法的一个重要差距——RLT 的精调收益无法反向改进基础模型。

  4. 全任务评估覆盖有限:全任务评估仅在 Screwdriver 和 Zip Tie 两个任务上进行,且全任务成功率显著低于受控评估。前置阶段的错误累积、状态分布偏移等问题需要在更多任务和更长的训练中得到验证。

  5. 强依赖 VLA 质量:RLT 的性能与 base VLA 的品质强相关——如果 VLA 在目标任务上的初始表现太差,RL Token 无法提取有用信息,BC Regularizer 会将策略锚定在无效区域,RL 训练也就无法启动。


八、关键概念速查

概念 说明
RLT (RL Token) 本文提出的方法:用编码器-解码器从冻结 VLA 中提取紧凑 RL Token 表示,在其上训练轻量 Actor-Critic 做快速在线 RL
RL Token (z_rl) 编码器-解码器信息瓶颈产生的紧凑向量,将 VLA 高维 token 嵌入压缩为可供 RL 使用的固定维度状态表示
Action Chunk 连续多步动作的序列预测(RLT 中 C=10 步 = 0.2 秒),将有效决策 horizon 压缩约 10 倍
BC Regularizer Behavior Cloning 正则化:L2 惩罚 RL 动作偏离 VLA 参考动作,将在线 RL 锚定为"局部编辑"
Reference Action Dropout 训练时 50% 概率将 Actor 的参考动作输入置零,防止直接复制 VLA 输出而失去学习能力
Reference Pass-Through 将 VLA 采样的参考动作块作为 Actor 的显式输入条件,保留 VLA 的多模态行为模式
Critical Phase 任务中对精度要求最高的关键阶段(插入、拧紧、穿线等),RLT 仅在此阶段切换为 RL 策略
UTD (Update-to-Data Ratio) 每步环境交互对应的梯度更新轮数,本文设为 5,是低数据 RL 的关键实践
Sparse Binary Reward 人类在每个 episode 结束时标注 +1(成功)或 0(失败),是唯一的奖励信号
π₀.₆ Physical Intelligence 的通用 VLA 模型,RLT 的基座