[Paper] 基于物理信号的视频推理

发布: 23小时前 (2026年4月24日 GMT+8 01:17)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.21873v1

请提供您希望翻译的具体文本内容（例如摘要、引言或其他章节），我将按照要求保留源链接、格式和技术术语进行简体中文翻译。谢谢！

Overview

论文 “Grounding Video Reasoning in Physical Signals” 提出了一个新基准，推动视频问答（VQA）系统超越表层语言技巧。通过要求模型精准定位 what（什么）、when（何时）和 where（何地）发生的物理事件（例如倒液、滑动、碰撞），作者揭示了当前方法的不足，并为未来研究提供了更丰富的诊断手段。

关键贡献

统一的有根基基准，覆盖来自四个不同视频来源（SSV2、YouCook2、HoloAssist、Roundabout‑TAU）的 1,560 条剪辑。
四维评估框架（what‑when‑where），将文本查询与明确的时间和空间目标对齐。
六个物理领域（例如重力、摩擦、动量）和三类提示（以物理为中心、类似 V‑STAR、中性重构），用于测试语义鲁棒性。
四种输入扰动（原始、打乱帧、去除模态、帧遮蔽），用于探查模型对视觉连续性和物理线索的依赖。
全面诊断显示：(1) 以物理为中心的提示最容易，(2) 空间定位最困难，(3) 鲁棒性在不同提示族和扰动之间有所差异。

方法论

数据统一 – 每个源视频被转换为一个 基于事实的事件记录，包含：
- 语义标签（“是什么”）
- 起止时间戳（“何时”）
- 边界框或区域（“何处”）
提示生成 – 根据记录自动生成三类自然语言问题：
- physics – 明确提及物理概念（例如，“物体何时开始滑动？”）
- vstar_like – 采用原始 V‑STAR 基准的风格，侧重事件描述而不使用显式物理术语。
- neutral_rstr – 模板化的控制问题，语义中性但仍需基于事实进行定位。
模型输入条件 – 同一视频在四种操作下呈现：
- Original – 原始视频，未作任何修改。
- Shuffled – 帧顺序被重新排列，以破坏时间连续性。
- Ablated – 移除某些模态（例如音频或光流）。
- Frame‑masked – 随机帧被遮挡。
评估 – 对模型在三个独立任务上的表现进行评分：预测正确的 what 标签、正确的时间区间以及正确的空间区域。准确率按提示族和扰动类型分别报告，以实现细粒度分析。

结果与发现

提示族	整体准确率	时间定位	空间定位
physics	≈ 78 %	81 %	65 %
vstar_like	≈ 71 %	73 %	58 %
neutral_rstr	≈ 64 %	66 %	52 %

物理提示是当前模型最容易处理的，可能是因为它们包含与训练数据高度匹配的词汇线索。
空间定位始终是最薄弱的环节，说明模型在精确定位事件方面仍有困难。
扰动鲁棒性具有选择性：在原始视频上表现不佳的模型，有时在帧顺序被打乱后会略有提升（暗示模型依赖于虚假的时间模式）。
提示族鲁棒性不具迁移性；在物理提示上表现出色的模型可能在 neutral_rstr 上表现不佳，凸显了进行提示感知评估的必要性。

实际意义

更可靠的视频助手 – 如烹饪机器人、AR 辅导或自主检测系统等应用，可受益于能够真正理解动作发生的何时和何地，而不仅仅是是什么的模型。
安全关键监控 – 在机器人或工业环境中，正确定位碰撞或滑倒等事件可以触发及时干预，降低事故发生率。
基准设计 – 该论文的诊断框架鼓励开发者报告不仅是整体准确率，还包括定位精度和对输入噪声的鲁棒性，从而打造更可信的 AI 产品。
模型训练策略 – 研究结果表明，加入显式的空间监督（例如注意力图、边界框损失）以及时间一致性目标，可能缩小在“何地”维度上的性能差距。

限制与未来工作

数据集规模 – 虽然多样，但 1,560 条剪辑相较于大规模视频语料仍显有限；扩大规模可能会揭示新的失效模式。
领域覆盖 – 这六个物理领域是经过策划的；真实世界情景可能涉及更复杂的多物理交互（例如流体‑结构耦合）。
提示生成 – 自动模板可能会遗漏人类自然使用的细微语言变体；未来工作可以使用人工编写的查询来测试语言鲁棒性。
模型多样性 – 实验聚焦于少数现有 VQA 架构；探索带有专用定位头的基于 Transformer 的视频‑语言模型是一个开放的方向。

作者

Alibay Osmanli
Zixu Cheng
Shaogang Gong

论文信息

arXiv ID: 2604.21873v1
分类: cs.CV
出版日期: April 23, 2026
PDF: Download PDF

[Paper] 基于物理信号的视频推理

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

[Paper] Vista4D：视频重新拍摄与4D点云

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中