[Paper] PhyScensis:物理增强的 LLM 代理用于复杂物理场景布置
发布: (2026年2月17日 GMT+8 01:55)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.14968v1
概述
本文介绍了 PhyScensis,一个新颖的框架,使大型语言模型(LLM)代理能够设计细致的 3‑D 场景,同时确保生成的布局遵守现实世界的物理规律。通过将 LLM 驱动的规划器与物理引擎紧密耦合,系统可以自动生成复杂的桌面、货架或包装场景,这些场景在视觉上逼真且在物理上稳定——这是扩展机器人仿真流水线的关键能力。
关键贡献
- Physics‑augmented LLM agent 迭代地提出对象及其空间和物理谓词(例如,“book A rests on shelf S”)。
- Solver‑feedback loop:物理引擎验证这些谓词,解决碰撞,并返回稳定性度量,引导 LLM 对布局进行细化。
- Probabilistic programming layer 用于对数值参数(精确位置、接触力)进行细粒度控制,同时保持随机多样性。
- Joint stability‑spatial heuristic 在物理可行性与紧凑、高密度排列之间取得平衡,使得场景能够容纳数十个交互物体。
- Comprehensive evaluation 显示相较于以往的 3‑D 布局生成器,在场景复杂度、视觉保真度和物理正确性方面具有显著优势。
方法论
- Prompt & Goal Specification – 用户提供高级文本描述(例如,“整理一个有 30 本不同尺寸书籍的书架”)。
- LLM Agent Planning – LLM 生成一系列 asset‑predicate 语句,每条描述一个对象及其预期关系(支撑、包含、接触)。
- Physics‑Enabled Solver – 轻量级物理引擎(如 PyBullet)接受这些谓词,放置对象,并运行短时仿真以检查相交和稳定性。
- Feedback & Refinement – 求解器返回稳定性分数和任何违规细节。LLM 使用这些反馈来修正谓词、添加缺失的支撑或调整位置。
- Probabilistic Programming Wrapper – 数值属性(精确坐标、方向)从基于 LLM 文本输出的学习分布中采样,实现受控随机性和可复现性。
- Iterative Convergence – 循环重复,直至场景满足预设的稳定性和空间紧凑性阈值,此时将最终 3‑D 场景导出用于仿真或渲染。
结果与发现
- 复杂度:PhyScensis 在单个货架上生成的场景最多包含 70 个对象(例如书籍、杯子、盒子),远远超过以往方法通常的 15‑20 个对象限制。
- 物理准确性:在 500 个生成布局的基准测试中,92 % 在 5 秒物理仿真后保持稳定,而最强基线仅为 68 %。
- 视觉质量:人工评估者给 PhyScensis 布局的真实感打了 4.3/5,而非物理感知的生成器为 3.1/5。
- 速度:迭代循环平均在 3.2 次迭代 后收敛,每个场景大约耗时 1.8 秒(单 GPU),使其在大规模数据生成中具有实用性。
实际意义
- 机器人仿真:研究人员可以自动生成成千上万的物理上合理的操作场景(例如,抓取‑放置、包装),无需手工构建每个环境,从而加速强化学习和模仿学习的数据收集。
- 合成数据集创建:视觉‑物理数据集(例如,用于可供性检测或稳定性预测)可以大规模生成,并提供精确的真实接触和支撑标签。
- 游戏与 AR/VR 内容:设计师可以使用自然语言提示来填充室内或谜题房间,使其在物理上表现正确,从而减少手动布局时间。
- 人机交互:服务机器人可以在各种货架补货或桌面摆放任务上进行预训练,提升向真实世界部署的迁移能力。
限制与未来工作
- 物理引擎保真度:当前求解器使用简化的刚体动力学;可变形物体或流体交互仍不在范围内。
- LLM 幻觉:有时 LLM 会提出不可能的物体尺寸或矛盾的谓词,需要额外的验证步骤。
- 大房间可扩展性:虽然在密集的局部场景(如货架、桌子)中有效,但将该方法扩展到具有导航约束的全房间布局仍是一个未解的挑战。
- 未来方向:作者计划整合更先进的模拟器(例如软体物理),加入基于视觉的感知回路以实现闭环场景生成,并探索少量示例提示以减少对大量提示工程的需求。
作者
- Yian Wang
- Han Yang
- Minghao Guo
- Xiaowen Qiu
- Tsun-Hsuan Wang
- Wojciech Matusik
- Joshua B. Tenenbaum
- Chuang Gan
论文信息
- arXiv ID: 2602.14968v1
- 分类: cs.RO, cs.AI
- 发布时间: 2026年2月16日
- PDF: 下载 PDF