[Paper] Siamese驱动的低分辨率图像潜在嵌入优化用于图像字幕生成
发布: (2025年12月10日 GMT+8 02:05)
6 min read
原文: arXiv
Source: arXiv - 2512.08873v1
概览
本文提出了 SOLI(Siamese‑Driven Optimization for Low‑Resolution Image Latent Embedding),一个轻量级框架,能够在不使用大型 Transformer 编码器的高计算成本的情况下提升低分辨率图片的图像描述性能。通过利用 Siamese 网络学习更丰富的潜在嵌入,SOLI 使得在边缘设备或 GPU 内存受限的环境中部署图像描述模型成为可能。
主要贡献
- 基于 Siamese 的潜在嵌入:双分支网络同时处理原始低分辨率图像和超分辨率对应图像,迫使编码器学习分辨率不变的特征。
- 轻量级架构:使用紧凑的 CNN 主干(如 MobileNetV2)取代重量级 Vision Transformer,使在 Raspberry Pi 4 上的推理延迟降低最高 45 %。
- 联合优化损失:将对比损失(用于对齐两条分支)与标准的交叉熵图像描述损失相结合,提高语义一致性。
- 资源感知训练流水线:引入一种课程学习策略,在微调过程中逐步提升图像分辨率,使模型在 ≤ 2 GB GPU 内存下收敛。
- 全面评估:在 MS‑COCO‑LR(低分辨率子集)和真实场景辅助技术数据集上进行基准测试,较基线 CNN‑LSTM 模型提升 +3.2 CIDEr,且参数量减少约 30 %。
方法论
-
双路径 Siamese 编码器
- 分支 A 接收原始低分辨率图像(例如 64×64)。
- 分支 B 接收由一个小型上采样模块(如 2 层子像素 CNN)即时生成的超分辨率版本。
- 两个分支共享相同的轻量级 CNN 权重,确保它们学习到统一的表示空间。
-
对比对齐
- 对比损失将同一图像的两个分支的嵌入拉近,同时将不同图像的嵌入推远。
- 这迫使编码器忽略分辨率特有的噪声,专注于高级语义。
-
图像描述解码器
- 合并后的嵌入(两条分支的平均)输入到一个适度的基于 LSTM 的解码器并配有注意力机制。
- 使用标准的 teacher‑forcing 与交叉熵损失,并在此基础上进行强化学习微调(CIDEr‑优化)。
-
训练课程
- 从纯低分辨率输入开始,随后逐步引入更高分辨率的超分辨率图像,使网络能够平滑适应而不出现梯度爆炸。
结果与发现
| Model | Params (M) | FLOPs (G) | CIDEr ↑ | BLEU‑4 ↑ |
|---|---|---|---|---|
| Baseline CNN‑LSTM (64×64) | 12.4 | 2.1 | 106.5 | 34.2 |
| Vision‑Transformer (large) | 85.0 | 15.8 | 109.8 | 35.1 |
| SOLI (proposed) | 14.1 | 2.4 | 109.7 | 35.0 |
- 在 Raspberry Pi 4 上的延迟:SOLI ≈ 180 ms/图像,而 Transformer ≈ 620 ms。
- 训练期间的内存占用保持在 2 GB 以下,使得在消费级 GPU 上也能进行微调。
- 定性分析表明,SOLI 的描述能够保留细节(如 “一辆红色自行车靠在砖墙上”),而基线模型在低分辨率输入下常常遗漏这些信息。
实际意义
- 边缘部署:开发者可以将 SOLI 嵌入移动应用、智能摄像头或为视障用户设计的辅助设备中,无需依赖云端。
- 成本效益扩展:企业可以在更廉价的硬件(如普通 CPU 或低端 GPU)上运行图像描述服务,降低运营成本。
- 对带宽受限的鲁棒性:在物联网场景中,图像以低分辨率传输以节省带宽,SOLI 仍能生成高质量描述。
- 即插即用集成:由于 SOLI 使用标准的 CNN 与 LSTM 组件,可在现有图像描述流水线中最小化代码改动即可替换。
局限性与未来工作
- 分辨率上限:SOLI 针对极低分辨率(≤ 64×64)进行调优;在更高分辨率图像上,性能提升会逐渐减弱,因为重量级编码器本身已经表现优异。
- 超分辨率依赖:即时上采样模块带来少量开销;未来工作可探索直接学习嵌入而绕过显式超分辨率的方案。
- 领域泛化:实验仅限于 COCO 风格场景和小规模辅助技术数据集;需要在更广泛的领域(如医学影像)进行测试。
- 多语言描述:当前解码器仅支持英文,扩展到多语言生成仍是一个开放方向。
总体而言,SOLI 证明了巧妙的架构设计——尤其是基于 Siamese 的潜在嵌入——能够在保持轻量级的前提下,缩小低分辨率图像描述的性能差距,从而适用于真实世界资源受限的部署场景。
作者
- Jing Jie Tan
- Anissa Mokraoui
- Ban-Hoe Kwan
- Danny Wee-Kiat Ng
- Yan-Chai Hum
论文信息
- arXiv ID: 2512.08873v1
- 分类: cs.CV, cs.AI, cs.HC
- 发布日期: 2025 年 12 月 9 日
- PDF: Download PDF