[Paper] SAGE:可扩展的代理式3D场景生成用于具身AI
发布: (2026年2月11日 GMT+8 02:59)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.10116v1
请提供您希望翻译的具体文本(例如摘要、引言或全文),我将把它翻译成简体中文并保留原始的 Markdown 格式。谢谢!
概述
本文介绍了 SAGE,一种新颖的“代理式”流水线,能够自动生成大规模、可直接用于仿真的 3‑D 场景,针对用户指定的具身任务(例如,“捡起一个碗并放到桌子上”)进行定制。通过将生成模型与学习得到的评审器相结合,这些评审器会检查语义合理性、视觉真实感以及物理稳定性,SAGE 生成的环境既多样又可立即用于训练具身 AI 代理,显著降低了昂贵的真实世界数据收集需求。
关键贡献
- 任务驱动的场景合成 – 在高层任务描述的条件下生成完整的 3‑D 环境,而不是基于通用布局先验。
- 代理式迭代细化 – 一个自主循环,选择并调用专门的生成器(布局、物体放置、纹理)和评审者,自我纠正直至满足所有约束。
- 多方面评审者 – 用于语义一致性、照片写实性和物理有效性的学习评估器,引导细化过程。
- SAGE‑10k 数据集 – 公开发布的 10,000 个多样化、任务对齐的场景集合,可直接导入主流模拟器(如 Habitat、AI2‑Thor)。
- 经验尺度研究 – 表明仅在 SAGE 生成的数据上训练的策略,随着数据集规模单调提升,并能推广到未见过的物体和布局。
方法论
- 任务解析 – 使用语言模型对用户的自然语言任务进行编码,提取意图(对象、动作、空间关系)。
- 生成器套件
- 布局生成器:预测合理的房间布局和对象边界框。
- 对象组合器:选择 3‑D 资产模型,调整方向和尺度以适配布局。
- 纹理/光照生成器:添加材质和光照,实现视觉真实感。
- 评审套件
- 语义评审:检查所选对象及其关系是否与任务描述相匹配。
- 视觉评审:基于判别式网络的模型,对逼真度进行打分。
- 物理评审:运行快速物理仿真,确保稳定性(无相交,物体稳坐在表面上)。
- 迭代代理循环 – 系统使用评审器对当前场景进行评估,识别违背最严重的约束,并选择相应的生成器进行修正。该循环重复进行,直至所有评审器的分数均高于预设阈值。
- 导出 – 最终场景以仿真器兼容格式(URDF/GLTF)导出,并附带任务元数据,以供后续策略训练使用。
结果与发现
- 质量指标:与基于规则的基线相比,SAGE 在语义合理性上提升 +23%,在视觉真实感上提升 +18%(使用 FID‑style 分数衡量),在物理稳定性上提升 +31%(减少穿透现象)。
- 策略表现:在 SAGE 生成的环境中训练的代理在原始任务套件上的成功率比在手动策划场景中训练的代理高 +12%,并且在转移到训练期间未见过的新对象时仍能保持性能。
- 扩展行为:成功率随着数据集从 1k 增长到 10k 场景而持续上升,表明合成数据可以在许多任务中取代昂贵的真实世界采集。
- 消融实验:去除任何批评者都会显著降低最终场景质量(例如,去掉物理批评者会导致不稳定场景增加 45%),验证了多批评者反馈回路的必要性。
实际意义
- 快速原型 – 开发者只需一句话即可创建特定任务的仿真环境,省去数周的手动场景制作。
- 以数据为中心的 AI 流程 – 可以按需生成大规模合成数据集,实现持续集成新任务和新对象,无需人工标注。
- 跨仿真器兼容性 – 导出格式可直接在 Habitat、AI2‑Thor 和基于 Unity 的仿真器中使用,便于集成到现有的强化学习训练流水线。
- 安全性与成本降低 – 在真实部署前先在 SAGE 生成的世界中训练策略,企业可以降低硬件损坏风险,并减少昂贵的实体数据采集设备需求。
- 定制化 – 代理循环可以与领域特定的生成器(例如厨房电器、仓库货架)结合,针对物流机器人或家庭助理等细分行业进行定制。
局限性与未来工作
- 资产库依赖 – 生成场景的真实感受限于底层 3‑D 资产库的多样性;稀有或高度专业化的对象可能仍需手动建模。
- 计算成本 – 对于高分辨率场景,迭代细化循环可能计算密集,限制了对非常大环境的即时生成。
- 对动态任务的泛化 – 当前工作聚焦于静态布局生成;将 SAGE 扩展至合成动态元素(例如移动代理、流体模拟)是一个待探索的方向。
- 用户意图模糊 – 模糊的自然语言提示可能导致意外的场景配置;未来版本可以加入澄清对话或多模态输入(草图、参考图像)。
作者在项目页面提供了代码、演示以及 SAGE‑10k 数据集,使开发者能够轻松实验并将该系统集成到自己的具身 AI 工作流中。
作者
- Hongchi Xia
- Xuan Li
- Zhaoshuo Li
- Qianli Ma
- Jiashu Xu
- Ming-Yu Liu
- Yin Cui
- Tsung-Yi Lin
- Wei-Chiu Ma
- Shenlong Wang
- Shuran Song
- Fangyin Wei
论文信息
- arXiv ID: 2602.10116v1
- 分类: cs.CV, cs.RO
- 发布时间: 2026年2月10日
- PDF: 下载 PDF