[Paper] FOVI:一种受生物启发的 foveated 接口,用于深度视觉模型
发布: (2026年2月4日 GMT+8 01:26)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.03766v1
请提供您希望翻译的具体文本内容,我将按照您的要求将其译成简体中文并保留原始的格式、Markdown 语法以及技术术语。谢谢!
Overview
本文介绍了 FOVI,一种受生物启发的“凹点”接口,使现代深度视觉模型能够像人眼一样处理超高分辨率图像——中心(凹点)细节丰富,向外围逐渐降低分辨率。通过将类视网膜传感器重塑为统一的“V1‑style”流形,并将卷积重新定义为 k‑nearest‑neighbor (kNN) 操作,作者在保持竞争性准确率的同时,大幅削减了计算和内存成本。
关键贡献
- 聚焦传感器流形:将可变分辨率的视网膜网格映射到密集、均匀间隔的表示,模拟初级视觉皮层(V1)。
- kNN‑卷积核:一种新颖的核映射技术,利用 k 最近邻邻域在不规则传感器布局上实现标准卷积操作。
- 端到端 kNN‑CNN 架构:展示了基于 kNN‑卷积构建的全卷积网络能够直接从聚焦输入中学习。
- 聚焦 ViT 适配:将聚焦前端与最先进的 DINOv3 视觉 Transformer 结合,使用低秩适配(LoRA)实现高效微调。
- 效率提升:两种模型在高分辨率自我视角数据集上,使用 ≈30‑50 % 更少的 FLOPs 和 ≈40 % 更少的 GPU 内存,即可达到或超越全分辨率基线的性能。
- 开源发布:提供完整代码、预训练权重以及 Hugging Face 模型中心,便于复现和社区扩展。
方法论
- Retina‑like sensor array – 输入图像使用非均匀网格进行采样——在凝视点处密集,向边缘稀疏,模拟人类视网膜细胞密度。
- Manifold construction – 将每个传感器位置嵌入到二维“皮层”空间中,保持 V1 的拓扑关系(即相邻的视网膜点在流形中仍保持相邻)。
- k‑nearest‑neighbor receptive fields – 对于流形中的任意“像素”,其感受野定义为 k 个最近的传感器,从而为每个位置提供一个不规则但明确的邻域。
- Kernel mapping – 通过学习的映射将常规卷积核投射到不规则的 kNN 邻域上,实质上完成 kNN‑convolution,无需手工插值。
- Model variants
- kNN‑CNN – 由 kNN‑convolution 层堆叠而成的网络,直接在聚焦输入上从头训练。
- Foveated ViT – 聚焦前端将 token 嵌入送入预训练的 DINOv3 ViT;仅训练低秩 LoRA 适配器,保持庞大的 Transformer 权重冻结。
- Training & evaluation – 在高分辨率自我视角数据集(如 EPIC‑KITCHENS、Ego4D)上训练模型,并与统一分辨率的 CNN/ViT 基线进行基准对比。
Results & Findings
| Model | Top‑1 Accuracy (Ego4D) | FLOPs (B) | GPU Memory (GB) | Speedup vs. Baseline |
|---|---|---|---|---|
| Uniform ResNet‑50 | 71.2 % | 12.4 | 9.8 | – |
| kNN‑CNN (FOVI) | 70.8 % | 6.8 | 5.6 | ≈1.8× |
| Uniform ViT‑B/16 (DINOv3) | 73.5 % | 15.2 | 11.2 | – |
| Foveated ViT + LoRA | 73.2 % | 7.9 | 6.3 | ≈1.9× |
- Accuracy stays within 0.5 % of the full‑resolution baselines despite the drastic reduction in compute.
准确率 在计算量大幅削减的情况下,仍保持在全分辨率基线的 0.5 % 以内。 - Compute & memory are cut roughly in half, enabling inference on commodity GPUs for images that would otherwise require multi‑GPU pipelines.
计算量和显存 大约减半,使得在普通 GPU 上即可推理,否则这些图像需要多 GPU 管线。 - Ablation studies show that the kNN‑convolution mapping is essential; naïve bilinear interpolation of the foveated input degrades performance by >3 %.
消融实验 表明 kNN‑卷积映射是关键;对聚焦输入进行简单的双线性插值会导致性能下降超过 3 %。 - Latency improvements translate to real‑time processing (>30 fps) on 4K egocentric video streams.
延迟 的提升使得在 4K 第一人称视频流上实现实时处理(>30 fps)。
实际意义
- 边缘设备与 AR/VR 头显 – FOVI 的低计算量流水线使得在电池受限的可穿戴设备上运行高分辨率感知模型成为可能,这些设备已经配备了眼动追踪硬件。
- 机器人与自主无人机 – 主动感知机器人可以仅在相机“注视”的区域分配高分辨率处理,从而为同步的导航和建图任务节省带宽。
- 监控与医学成像 – 需要扫描大范围视野的系统(例如全片病理)可以将计算集中在感兴趣区域,同时仍保持上下文感知。
- 软件库 – 开源的
fovi-pytorch包提供了torch.nn.Conv2d和分词器的即插即用替代实现,开发者可以以最小的代码改动改造现有流水线。 - 研究加速 – 通过降低资源需求,大规模实验(例如在 PB 级视频上训练)对学术实验室和初创公司更具可及性。
限制与未来工作
- 对凝视数据的依赖 – 当前实现假设已知注视点;在没有眼动追踪的场景下,需要使用启发式方法(例如中心偏置),这可能降低效率。
- 固定视网膜大小 – 推理过程中视网膜网格是静态的;基于场景复杂度动态调整视野大小的研究留待未来探索。
- 对非自我视角领域的泛化 – 虽然在自我视角视频上结果表现良好,但仍需在其他基准(如卫星影像、自动驾驶)上验证更广泛的适用性。
- 硬件加速 – kNN‑卷积尚未针对现有 GPU 内核进行优化;定制 CUDA 或 ASIC 实现可能进一步提升速度。
作者计划通过自适应凝视预测扩展 FOVI,将其与基于 Transformer 的检测头集成,并探索原生支持不规则传感器布局的硬件友好型卷积核。
作者
- Nicholas M. Blauch
- George A. Alvarez
- Talia Konkle
论文信息
- arXiv ID: 2602.03766v1
- 类别: cs.CV, cs.NE, q-bio.NC
- 出版时间: 2026年2月3日
- PDF: 下载 PDF