[论文] DarkEQA:在低光室内环境中对具身问答的视觉-语言模型进行基准测试

发布: (2026年1月1日 GMT+8 01:31)
7 min read
原文: arXiv

Source: arXiv - 2512.24985v1

概述

论文 DarkEQA 引入了首个基准,用于测试视觉‑语言模型(VLMs)在“黑暗”低光室内场景中“看见”并回答问题的能力。通过模拟真实的夜间照明和传感器噪声,作者揭示了一个隐藏的感知瓶颈,而大多数现有的 embodied‑AI 评估完全忽视了这一点。

关键贡献

  • DarkEQA 基准 – 公开发布的数据集,将自我视角视频帧与跨多个精确校准的低光照水平的问题‑答案对配对。
  • 基于物理的退化管线 – 在线性 RAW 空间渲染低光图像,施加光照衰减和真实感传感器噪声,然后执行类似 ISP 的色调映射,以模拟真实相机输出。
  • 系统性评估 – 对数十种最先进的 VLM(如 CLIP‑V、BLIP‑2、LLaVA)以及低光图像增强(LLIE)模型在同一基准上进行评测。
  • 可归因的鲁棒性分析 – 将感知与推理分离,展示性能下降有多少是由于视觉质量而非模型架构导致的。
  • 开源发布 – 代码、数据和评估脚本将全部公开,方便社区将基准扩展到新模型或新环境。

方法论

  1. 环境与数据生成 – 作者从现有的具身问答(EQA)场景(例如 AI2‑THOR 房间)出发,捕获模拟相机的原始传感器数据。
  2. 低光模拟 – 在线性 RAW 空间中将光强降低至原始照明的 0 % 到 5 %,并加入真实的光子泊松噪声以及读出噪声。
  3. ISP 渲染 – 将带噪声的 RAW 图像通过简化的图像信号处理管线(去马赛克、白平衡、伽马校正)处理,生成 VLM 实际看到的最终 RGB 帧。
  4. 基准构建 – 对每个光照水平,提供一组无导航的自我视角帧,并配以自然语言问题(例如 “桌子上的灯是什么颜色?”)。真实答案来源于模拟器的对象元数据。
  5. 评估协议 – VLM 接收降质帧和问题后生成答案。使用精确匹配和模糊匹配指标测量准确率。可选地在前置处理中加入 LLIE 模型,以观察增强是否提升 VLM 性能。

结果与发现

  • 性能急剧下降 – 大多数视觉语言模型(VLM)在光照强度降至原始水平的 2 % 以下时,准确率会下降 30‑50 %(绝对值),即使场景布局保持不变。
  • 低光增强有帮助,但仍不足 – 使用顶级低光增强模型(如 KinD、EnlightenGAN)只能恢复约 10‑15 % 的损失准确率,表明 VLM 对残留伪影仍然脆弱。
  • 模型特定趋势 – 更大、经过指令微调的 VLM(如 LLaVA‑13B)相比小型 CLIP 系列模型衰减更平缓,暗示更丰富的语言先验可以在一定程度上补偿视觉噪声。
  • 感知 vs. 推理 – 当使用光照良好的(完美)图像回答相同问题时,所有模型的准确率均超过 90 %,进一步确认瓶颈主要在视觉层面。
  • 跨光照鲁棒性 – 在混合光照条件下训练 VLM(数据增强)可将低光表现提升约 20 %(相对),但仍落后于光照良好时的表现。

实际意义

  • 机器人与家庭助理 – 需要 24/7 运行的服务机器人(例如夜间安保巡逻、床边协助)如果没有额外的低光处理,不能直接使用现成的 VLM。
  • AR/VR 与可穿戴设备 – 在光线昏暗的环境(如仓库、医院)中使用的头戴设备,将受益于集成 LLIE 前端或在 DarkEQA 风格数据上训练 VLM。
  • 边缘部署 – 基准测试表明,仅仅扩大模型规模并不足够;开发者应考虑传感器层面的改进(更大光圈、红外)或适配边缘硬件的轻量去噪模块。
  • 评估标准 – DarkEQA 为在现场部署前对任何具身 AI 流程进行压力测试提供了可复现的方法,推动更稳健的产品发布。

限制与未来工作

  • 仅限仿真 – 该基准依赖合成 RAW 生成;真实低光拍摄可能引入额外的复杂性(例如,运动模糊、色偏)。
  • 静态光照水平 – 仅测试了少量离散的照明水平;对动态光照变化的连续适应仍未探索。
  • 关注感知 – 虽然单独研究感知有其价值,但未来工作应评估低光环境下的端到端导航 + 问答,以捕捉交互效应。
  • 更广泛的模态 – 将基准扩展到多模态传感器(深度、红外)可能为稳健的具身推理开辟新途径。

作者

  • Yohan Park
  • Hyunwoo Ha
  • Wonjun Jo
  • Tae‑Hyun Oh

论文信息

  • arXiv ID: 2512.24985v1
  • 类别: cs.CV, cs.AI, cs.LG, cs.RO
  • 出版时间: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

【论文】Web World Models

语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...