[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

发布: 3天前 (2026年2月25日 GMT+8 02:58)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.21203v1

概述

本文介绍了 Squint，一种视觉强化学习（RL）系统，显著加快了依赖原始相机图像的机器人操作策略的训练速度。通过结合一系列工程技巧——并行仿真、分布式评论家、“分辨率眯眼”（resolution squinting）以及精细调参——Squint 能在单个 RTX 3090 GPU 上 15 分钟以内 学会复杂的抓取‑放置技能，许多任务甚至 6 分钟以内 完成。这使得视觉 RL 对需要快速迭代真实世界机器人应用的开发者来说更加实用。

关键贡献

Fast visual Soft Actor‑Critic (SAC) 实现：在实际运行时间上超越了之前的离策略和在策略视觉强化学习基线。
Resolution squinting（分辨率压缩）：在训练期间动态下采样图像输入，以降低计算量，同时保留关键的视觉信息。
Distributional critic（分布式评论家）：对完整的回报分布进行建模，提高了高维视觉输入的样本效率和稳定性。
Layer‑norm‑augmented 网络架构：通过层归一化缓解大批量图像训练导致的不稳定性。
Optimized update‑to‑data (UTD) ratio 与并行仿真流水线：在不对陈旧数据过拟合的前提下，使 GPU 资源保持饱和。
SO‑101 任务集：在 ManiSkill3 中提供了八个高度域随机化的操作任务新基准，并在实际机器人上展示了仿真到真实的迁移能力。

方法论

Squint 基于 Soft Actor‑Critic 算法，这是一种流行的离线策略强化学习方法，能够同时学习随机策略和 Q‑函数。作者做了若干实用的改进：

并行仿真引擎 – 多个环境在 CPU 上并发运行，将源源不断的图像观测输送到 GPU。这消除了传统的瓶颈，即仿真器落后于学习器的情况。
分辨率缩放（Resolution Squinting） – 与其在每一步都向网络输入全分辨率（例如 256×256）的图像，Squint 会随机选择较低的分辨率（最低可至 64×64）进行大部分更新。网络因此学会对尺度变化保持鲁棒，而 GPU 处理的像素总量大幅减少。
分布式 Critic – Q‑网络预测的是对可能回报的分类分布，而不是单一标量。该更丰富的信号在视觉输入嘈杂或模糊时帮助策略更快收敛。
层归一化（Layer Normalization） – 在每个卷积块之后加入，以稳定并行仿真产生的大规模小批量梯度。
调优的更新‑数据比率（Update‑to‑Data Ratio） – 作者通过实验发现每个新环境转移对应的梯度步数的最佳值约为 UTD ≈ 20。更新太少会浪费数据，更新太多则会对陈旧经验产生过拟合。
优化的 CUDA 核心与混合精度训练 – 利用 FP16 算术和融合核降低内存带宽需求，加速每次训练迭代。

所有这些组件都集成在一个单一的 PyTorch 代码库中，只需一条命令即可启动，使系统对开发者而言具有可复现性。

结果与发现

训练速度：在 RTX 3090 上，Squint 在 8 项 SO‑101 任务中有 6 项在 ≤ 6 分钟 内收敛，其余两项在 ≈ 15 分钟 内完成。这比最佳已发表的视觉离线基线快 3–5 倍，比 PPO 等在线方法快一个数量级。
样本效率：尽管采用了激进的下采样，模拟任务的最终成功率仍与全分辨率基线持平或更高（平均成功率约 92 % 对比先前工作 89 %）。
仿真到真实的迁移：在仿真中完全训练的策略在仅进行简短校准后部署到真实的 SO‑101 机器人上。机器人在三个代表性任务上实现了相当的成功率（约为仿真性能的 85 %），验证了所学习的视觉特征对真实世界的光照和纹理变化具有鲁棒性。
消融研究：去除任意单一组件（例如分布式评论家或分辨率压缩）都会导致明显的减速（慢 2–3 倍）或最终性能下降（成功率降低 5–10 %），凸显了各设计选择之间的协同作用。

实际影响

Rapid Prototyping：开发者现在可以在几分钟内而不是几小时内迭代 vision‑based manipulation policies，显著缩短仓库 pick‑and‑place、服务机器人或定制自动化装置的开发周期。
Cost Reduction：更快的训练意味着更少的 GPU 时长和对大型计算集群的依赖，使 visual RL 对预算有限的初创公司和研究实验室也变得可及。
Scalable Sim‑to‑Real Pipelines：对 domain randomization 的鲁棒性表明，团队可以在大多数学习阶段仅依赖纯模拟，仅在必要时进行最小量的 real‑world fine‑tuning。
Integration with Existing Stacks：由于 Squint 基于 PyTorch 和 ManiSkill3，可在现有 ROS‑2 或 OpenAI‑Gym 流程中几乎无需代码修改即可直接使用。
Potential for Edge Deployment：resolution‑squinting 技术降低了推理开销，使得在边缘设备（如 Jetson Orin）上部署成为可能，同时不牺牲策略质量。

限制与未来工作

任务多样性：该基准聚焦于单机械臂的操作；扩展到移动、多人机器人协作或可变形物体处理仍未测试。
分辨率权衡：虽然 Squint 能加速训练，但极低的分辨率会削弱需要细致视觉细节的任务表现（例如穿针）。自适应分辨率策略或可缓解此问题。
硬件依赖：报告的实际时间提升基于高端 GPU（RTX 3090）。在更一般的硬件上扩展可能需要额外的优化。
真实世界鲁棒性：尽管在有限任务上实现了仿真到真实的迁移，但更广泛的现实变异（如动态光照、遮挡）仍可能挑战策略。未来工作可探索持续在线适应或元学习，以进一步缩小仿真‑真实差距。

总体而言，Squint 标志着将视觉强化学习转变为日常机器人开发实用工具的重要一步，使原本需要数小时、计算资源密集的过程缩短至几分钟。

作者

Abdulaziz Almuzairee
Henrik I. Christensen

论文信息

arXiv ID: 2602.21203v1
类别: cs.RO, cs.CV, cs.LG
出版时间: 2026年2月24日
PDF: Download PDF

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] ManifoldGD：免训练层次流形引导用于基于扩散的数据集蒸馏

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] NoLan：通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉