[Paper] RL-AWB:深度强化学习用于低光夜间场景的自动白平衡校正

发布: (2026年1月9日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2601.05249v1

概述

Night‑time photography is notoriously difficult for automatic white‑balance (AWB) algorithms because low‑light noise and mixed artificial lighting break the assumptions most color‑constancy methods rely on. The paper RL‑AWB introduces a hybrid framework that first extracts a reliable statistical estimate of the scene illumination and then refines it with a deep reinforcement‑learning (RL) agent that “tunes” the AWB parameters the way a human expert would. The authors also release a new multi‑sensor nighttime dataset, enabling cross‑camera evaluation that has been missing from prior work.

关键贡献

  • 混合统计 + 强化学习管道:结合针对夜间的灰像素检测器和新颖的光照估计器,然后使用深度强化学习策略对每张图像的自动白平衡设置进行自适应调整。
  • 首个基于强化学习的颜色恒常模型:将自动白平衡视为序列决策问题,使智能体能够学习最大化感知质量奖励的策略。
  • 多传感器夜间数据集:1,200 张原始图像,来自四种不同相机传感器(智能手机、无反相机、单反相机以及低成本传感器),覆盖多种夜间光照条件。
  • 跨域泛化:证明学习到的策略在从低光场景到光照充足场景的迁移中表现良好,无需重新训练。
  • 开源实现与演示:代码、预训练模型以及交互式网页演示均已公开。

方法论

  1. 统计预处理

    • 使用针对夜间适应的直方图分析检测 显著的灰色像素,该分析会忽略噪声较大的暗区。
    • 通过对这些灰色像素的色度进行平均,估计初始光照向量,为强化学习代理提供可靠的起点。
  2. 强化学习代理

    • 状态:原始图像的全局统计信息(每通道的均值、方差)、初始光照估计以及来自浅层 CNN 的低维特征图的拼接。
    • 动作:对三个 AWB 增益参数(R、G、B)进行微小调整。代理每幅图像最多可执行 10 步,模拟迭代手动微调。
    • 奖励:结合 灰世界损失(校正后图像的灰色像素接近中性程度)和 结构相似性(SSIM)项的感知度量,用以惩罚过度校正并保留细节。
    • 训练:在多传感器数据集上使用近端策略优化(PPO),并采用课程学习——先在光照良好的图像上训练,逐步引入更暗、更嘈杂的场景。
  3. 推理

    • 统计估计器提供初始猜测;随后 RL 策略执行几次快速调整步骤(通常在现代 GPU 上 < 5 ms),得到最终的 AWB 校正图像。

结果与发现

指标(数值越低越好)统计基线RL‑AWB(我们的)最先进(DeepAWB)
平均角度误差 (°)6.84.25.5
ΔEab (CIEDE2000)9.16.37.8
运行时间 (ms)12815
  • 更高的精度:RL‑AWB 将平均角度误差降低约 38 %,相较于现有最好的深度学习 AWB 模型,尤其在最暗的图像(≤ 0.01 lux)上表现突出。
  • 跨传感器的鲁棒性能:在使用三个传感器进行训练、在第四个传感器上测试时,误差增幅小于 0.5°,表明具有很强的泛化能力。
  • 实时可行性:RL 精细化仅增加几毫秒的计算时间,使该方法适用于移动端或嵌入式流水线。

实际意义

  • 移动摄影应用:集成 RL‑AWB 可以显著提升夜间模式的自动白平衡,同时不牺牲速度,实现更自然的色彩直接输出相机。
  • 监控与汽车视觉:低光摄像头常出现色偏,影响下游任务(例如目标检测)。即插即用的 RL‑AWB 模块可以清理原始画面,提高感知系统的可靠性。
  • 跨设备流水线:由于模型学习了与传感器无关的策略,制造商可以在不同产品线上部署同一个预训练模型,降低工程开销。
  • 内容创作工具:照片编辑软件可以提供一个“自动夜间平衡”按钮,模拟专业调色师的效果,为处理原始夜间素材的创作者节省时间。

限制与未来工作

  • 依赖灰像素检测:极度单色的场景(例如,几乎没有中性表面的夜空)仍然会混淆统计前端,限制强化学习代理的起始点。
  • 训练数据多样性:尽管新数据集覆盖了四种传感器,但主要集中在城市夜景;在异域光照(例如舞台灯光、烟火)下的性能尚未测试。
  • 可解释性:强化学习策略是黑箱;理解为何选择特定增益调整并非易事,这在安全关键的应用中可能成为顾虑。

未来的研究方向包括:使用学习到的语义线索增强灰像素检测器,扩展数据集以覆盖更广泛的夜间环境,并探索模型压缩技术,以在超低功耗边缘设备上运行强化学习代理。

作者

  • Yuan‑Kang Lee
  • Kuan‑Lin Chen
  • Chia‑Che Chang
  • Yu‑Lun Liu

论文信息

  • arXiv ID: 2601.05249v1
  • 分类: cs.CV
  • 出版日期: 2026年1月8日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »