[Paper] Siamese驱动的低分辨率图像潜在嵌入优化用于图像字幕生成

发布: (2025年12月10日 GMT+8 02:05)
6 min read
原文: arXiv

Source: arXiv - 2512.08873v1

概览

本文提出了 SOLI(Siamese‑Driven Optimization for Low‑Resolution Image Latent Embedding),一个轻量级框架,能够在不使用大型 Transformer 编码器的高计算成本的情况下提升低分辨率图片的图像描述性能。通过利用 Siamese 网络学习更丰富的潜在嵌入,SOLI 使得在边缘设备或 GPU 内存受限的环境中部署图像描述模型成为可能。

主要贡献

  • 基于 Siamese 的潜在嵌入:双分支网络同时处理原始低分辨率图像和超分辨率对应图像,迫使编码器学习分辨率不变的特征。
  • 轻量级架构:使用紧凑的 CNN 主干(如 MobileNetV2)取代重量级 Vision Transformer,使在 Raspberry Pi 4 上的推理延迟降低最高 45 %
  • 联合优化损失:将对比损失(用于对齐两条分支)与标准的交叉熵图像描述损失相结合,提高语义一致性。
  • 资源感知训练流水线:引入一种课程学习策略,在微调过程中逐步提升图像分辨率,使模型在 ≤ 2 GB GPU 内存下收敛。
  • 全面评估:在 MS‑COCO‑LR(低分辨率子集)和真实场景辅助技术数据集上进行基准测试,较基线 CNN‑LSTM 模型提升 +3.2 CIDEr,且参数量减少约 30 %

方法论

  1. 双路径 Siamese 编码器

    • 分支 A 接收原始低分辨率图像(例如 64×64)。
    • 分支 B 接收由一个小型上采样模块(如 2 层子像素 CNN)即时生成的超分辨率版本。
    • 两个分支共享相同的轻量级 CNN 权重,确保它们学习到统一的表示空间。
  2. 对比对齐

    • 对比损失将同一图像的两个分支的嵌入拉近,同时将不同图像的嵌入推远。
    • 这迫使编码器忽略分辨率特有的噪声,专注于高级语义。
  3. 图像描述解码器

    • 合并后的嵌入(两条分支的平均)输入到一个适度的基于 LSTM 的解码器并配有注意力机制。
    • 使用标准的 teacher‑forcing 与交叉熵损失,并在此基础上进行强化学习微调(CIDEr‑优化)。
  4. 训练课程

    • 从纯低分辨率输入开始,随后逐步引入更高分辨率的超分辨率图像,使网络能够平滑适应而不出现梯度爆炸。

结果与发现

ModelParams (M)FLOPs (G)CIDEr ↑BLEU‑4 ↑
Baseline CNN‑LSTM (64×64)12.42.1106.534.2
Vision‑Transformer (large)85.015.8109.835.1
SOLI (proposed)14.12.4109.735.0
  • 在 Raspberry Pi 4 上的延迟:SOLI ≈ 180 ms/图像,而 Transformer ≈ 620 ms。
  • 训练期间的内存占用保持在 2 GB 以下,使得在消费级 GPU 上也能进行微调。
  • 定性分析表明,SOLI 的描述能够保留细节(如 “一辆红色自行车靠在砖墙上”),而基线模型在低分辨率输入下常常遗漏这些信息。

实际意义

  • 边缘部署:开发者可以将 SOLI 嵌入移动应用、智能摄像头或为视障用户设计的辅助设备中,无需依赖云端。
  • 成本效益扩展:企业可以在更廉价的硬件(如普通 CPU 或低端 GPU)上运行图像描述服务,降低运营成本。
  • 对带宽受限的鲁棒性:在物联网场景中,图像以低分辨率传输以节省带宽,SOLI 仍能生成高质量描述。
  • 即插即用集成:由于 SOLI 使用标准的 CNN 与 LSTM 组件,可在现有图像描述流水线中最小化代码改动即可替换。

局限性与未来工作

  • 分辨率上限:SOLI 针对极低分辨率(≤ 64×64)进行调优;在更高分辨率图像上,性能提升会逐渐减弱,因为重量级编码器本身已经表现优异。
  • 超分辨率依赖:即时上采样模块带来少量开销;未来工作可探索直接学习嵌入而绕过显式超分辨率的方案。
  • 领域泛化:实验仅限于 COCO 风格场景和小规模辅助技术数据集;需要在更广泛的领域(如医学影像)进行测试。
  • 多语言描述:当前解码器仅支持英文,扩展到多语言生成仍是一个开放方向。

总体而言,SOLI 证明了巧妙的架构设计——尤其是基于 Siamese 的潜在嵌入——能够在保持轻量级的前提下,缩小低分辨率图像描述的性能差距,从而适用于真实世界资源受限的部署场景。

作者

  • Jing Jie Tan
  • Anissa Mokraoui
  • Ban-Hoe Kwan
  • Danny Wee-Kiat Ng
  • Yan-Chai Hum

论文信息

  • arXiv ID: 2512.08873v1
  • 分类: cs.CV, cs.AI, cs.HC
  • 发布日期: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »