[Paper] 视觉语言模型能从交互中学习直观物理吗?
发布: (2026年2月6日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06033v1
Overview
最近的一项研究调查了大型视觉语言模型(VLM)是否能够获得“直觉物理”——即人类通过日常互动发展出的关于重力、碰撞和对象永存性的常识理解。作者探讨了让这些模型通过在模拟环境中主动交互(通过强化学习)进行学习,是否能够产生比标准监督微调更稳健、可迁移的物理推理能力。
关键贡献
- 基于交互的训练流水线: 引入一种强化学习(RL)框架,使预训练的 VLM 能在物理丰富的模拟世界中行动、观察并获得反馈。
- 系统化的泛化测试: 设计了一套相关的物理任务(例如堆叠、滚动、捕捉),这些任务共享视觉特征但动力学不同,用以探究跨任务迁移。
- 关于鲁棒性的实证发现: 表明虽然交互提升了模型在特定训练任务上的表现,但并 未 产生能够将物理直觉推广到新但相关情境的模型。
- 基线比较: 将交互训练的 VLM 与监督微调的 VLM 进行基准对比,确认两种方法都未实现对分布外物理推理的强大能力。
方法论
- 基础模型: 作者从一个最先进的视觉‑语言模型(例如基于 CLIP 的编码‑解码器)开始,该模型已经能够理解图像‑文本对。
- 环境: 一个轻量级物理模拟器(类似 Unity 或 MuJoCo)提供一组任务,要求智能体预测或操控物体轨迹(例如 “球会从平台上掉下来吗?”)。
- 通过强化学习学习:
- VLM 接收场景图像和文本提示。
- 它输出一个动作(例如 “向左推”, “等待”)。
- 模拟器根据物理预测是否正确或操控是否成功返回奖励。
- 使用策略梯度(PPO)更新 VLM 的参数,使其能够通过试错来细化内部的物理表征。
- 评估协议: 在单一任务上训练后,将同一模型在三个未见任务上进行测试,这些任务共享相同的视觉统计特性,但需要不同的物理推理。性能既以原始准确率衡量,也以预测未来状态的能力进行评估。
结果与发现
- 任务内增益: 经过交互训练的 VLM 在其训练任务上的准确率从约 55 % 提升至约 78 %,优于监督微调(≈70 %)。
- 跨任务下降: 在新任务上评估时,准确率回落至约 52 %,基本与未适配的预训练基线相同。
- 交互未带来明显收益: 即使训练任务和测试任务共享相同的底层物理(例如重力)和视觉布局,学习到的策略也无法迁移。
- 表征分析: 对隐藏层进行探测表明,交互会重塑部分视觉特征,但并未形成统一的抽象物理模块。
实际意义
- 对开发者的提醒: 仅在模拟物理环境中使用强化学习对 VLM 进行微调,几乎不可能得到能够可靠推理未见物理情景(例如机器人规划、AR/VR 对象交互)的模型。
- 需要专用物理模块: 构建具身 AI(机器人、自治无人机)的公司可能需要集成显式物理引擎或专门的仿真训练模型,而不是仅依赖 VLM。
- 数据集设计洞察: 为了获得可迁移的直觉,训练数据必须让模型接触多种物理情境,而不是单一任务,这暗示需要多任务课程或元学习方法。
- 混合系统的潜力: 研究表明 VLM 在感知和语言落地方面表现出色,而独立的、可能是符号或图结构的物理求解器可以处理动力学,这为模块化 AI 流水线打开了新途径。
限制与未来工作
- 任务多样性受限: 实验仅聚焦于少数相对简单的物理任务;更复杂的多物体交互可能会揭示不同的模式。
- 仅限仿真环境: 缺乏真实世界噪声(摩擦变化、传感器误差),因此研究结果可能无法直接应用于实体机器人。
- 模型规模与架构: 仅考察了一类视觉语言模型;更大或多模态的 Transformer(如 Flamingo、GPT‑4‑V)可能表现不同。
- 建议的未来方向:
- 多任务或元强化学习课程,明确鼓励跨物理领域的抽象能力。
- 将结构化物理先验(例如图神经网络)融入 VLM 的潜在空间。
- 在真实机器人平台上评估迁移,以检验模拟交互是否能弥合现实差距。
作者
- Luca M. Schulze Buschoff
- Konstantinos Voudouris
- Can Demircan
- Eric Schulz
论文信息
- arXiv ID: 2602.06033v1
- 分类: cs.LG
- 出版时间: 2026年2月5日
- PDF: Download PDF