[Paper] 无像素的视觉:来自相机轨迹的感知
发布: (2025年11月27日 GMT+8 02:57)
2 min read
原文: arXiv
Source: arXiv - 2511.21681v1
概述
是否可以仅凭相机轨迹——它在空间中划出的路径,而不查看像素,就感知视频内容?本文是首次系统性地探讨这一看似不可能的问题。为此,我们提出了一种对比学习框架,用于训练 CamFormer,一种专用编码器,将相机姿态轨迹投射到联合嵌入空间,并与自然语言对齐。我们发现,尽管表面上看似简单,相机轨迹实际上是一个极具信息量的信号,能够揭示视频内容。换言之,“你如何移动”确实可以透露“你在做什么”(自视角)或“你在观察什么”(他视角)。
我们展示了学习得到的 CamFormer 嵌入在多种下游任务中的通用性,涵盖跨模态对齐、分类以及时间分析等。重要的是,我们的表征在不同的相机姿态估计方法下都表现稳健,包括高保真多传感器方法和仅使用 RGB 的标准估计器。我们的研究表明,相机轨迹是一种轻量、稳健且多功能的模态,可用于感知视频内容。
作者
- 雪子慧
- 克里斯汀·格劳曼
- 迪马·达门
- 安德鲁·齐瑟曼
- 韩腾达
类别
cs.CV
论文信息
- arXiv ID: 2511.21681v1
- 类别: cs.CV
- 出版时间: 2025年11月27日
- PDF: 下载 PDF