[Paper] 无像素的视觉：来自相机轨迹的感知

发布: 5个月前 (2025年11月27日 GMT+8 02:57)

2 分钟阅读

原文: arXiv

Source: arXiv - 2511.21681v1

概述

是否可以仅凭相机轨迹——它在空间中划出的路径，而不查看像素，就感知视频内容？本文是首次系统性地探讨这一看似不可能的问题。为此，我们提出了一种对比学习框架，用于训练 CamFormer，一种专用编码器，将相机姿态轨迹投射到联合嵌入空间，并与自然语言对齐。我们发现，尽管表面上看似简单，相机轨迹实际上是一个极具信息量的信号，能够揭示视频内容。换言之，“你如何移动”确实可以透露“你在做什么”（自视角）或“你在观察什么”（他视角）。

我们展示了学习得到的 CamFormer 嵌入在多种下游任务中的通用性，涵盖跨模态对齐、分类以及时间分析等。重要的是，我们的表征在不同的相机姿态估计方法下都表现稳健，包括高保真多传感器方法和仅使用 RGB 的标准估计器。我们的研究表明，相机轨迹是一种轻量、稳健且多功能的模态，可用于感知视频内容。

作者

雪子慧
克里斯汀·格劳曼
迪马·达门
安德鲁·齐瑟曼
韩腾达

类别

cs.CV

论文信息

arXiv ID: 2511.21681v1
类别: cs.CV
出版时间: 2025年11月27日
PDF: 下载 PDF

[Paper] 无像素的视觉：来自相机轨迹的感知

概述

作者

类别

论文信息

相关文章

[Paper] Video‑R2：强化多模态语言模型中的一致且有根基的推理

[Paper] Video-CoM：通过操作链进行交互式视频推理

[Paper] AnyTalker：通过交互细化实现多人物说话视频生成的规模化

[Paper] 视觉生成调优