[Paper] Siamese驱动的低分辨率图像潜在嵌入优化用于图像字幕生成

发布: 2个月前 (2025年12月10日 GMT+8 02:05)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.08873v1

概览

本文提出了 SOLI（Siamese‑Driven Optimization for Low‑Resolution Image Latent Embedding），一个轻量级框架，能够在不使用大型 Transformer 编码器的高计算成本的情况下提升低分辨率图片的图像描述性能。通过利用 Siamese 网络学习更丰富的潜在嵌入，SOLI 使得在边缘设备或 GPU 内存受限的环境中部署图像描述模型成为可能。

主要贡献

基于 Siamese 的潜在嵌入：双分支网络同时处理原始低分辨率图像和超分辨率对应图像，迫使编码器学习分辨率不变的特征。
轻量级架构：使用紧凑的 CNN 主干（如 MobileNetV2）取代重量级 Vision Transformer，使在 Raspberry Pi 4 上的推理延迟降低最高 45 %。
联合优化损失：将对比损失（用于对齐两条分支）与标准的交叉熵图像描述损失相结合，提高语义一致性。
资源感知训练流水线：引入一种课程学习策略，在微调过程中逐步提升图像分辨率，使模型在 ≤ 2 GB GPU 内存下收敛。
全面评估：在 MS‑COCO‑LR（低分辨率子集）和真实场景辅助技术数据集上进行基准测试，较基线 CNN‑LSTM 模型提升 +3.2 CIDEr，且参数量减少约 30 %。

方法论

双路径 Siamese 编码器
- 分支 A 接收原始低分辨率图像（例如 64×64）。
- 分支 B 接收由一个小型上采样模块（如 2 层子像素 CNN）即时生成的超分辨率版本。
- 两个分支共享相同的轻量级 CNN 权重，确保它们学习到统一的表示空间。
对比对齐
- 对比损失将同一图像的两个分支的嵌入拉近，同时将不同图像的嵌入推远。
- 这迫使编码器忽略分辨率特有的噪声，专注于高级语义。
图像描述解码器
- 合并后的嵌入（两条分支的平均）输入到一个适度的基于 LSTM 的解码器并配有注意力机制。
- 使用标准的 teacher‑forcing 与交叉熵损失，并在此基础上进行强化学习微调（CIDEr‑优化）。
训练课程
- 从纯低分辨率输入开始，随后逐步引入更高分辨率的超分辨率图像，使网络能够平滑适应而不出现梯度爆炸。

结果与发现

Model	Params (M)	FLOPs (G)	CIDEr ↑	BLEU‑4 ↑
Baseline CNN‑LSTM (64×64)	12.4	2.1	106.5	34.2
Vision‑Transformer (large)	85.0	15.8	109.8	35.1
SOLI (proposed)	14.1	2.4	109.7	35.0

在 Raspberry Pi 4 上的延迟：SOLI ≈ 180 ms/图像，而 Transformer ≈ 620 ms。
训练期间的内存占用保持在 2 GB 以下，使得在消费级 GPU 上也能进行微调。
定性分析表明，SOLI 的描述能够保留细节（如 “一辆红色自行车靠在砖墙上”），而基线模型在低分辨率输入下常常遗漏这些信息。

实际意义

边缘部署：开发者可以将 SOLI 嵌入移动应用、智能摄像头或为视障用户设计的辅助设备中，无需依赖云端。
成本效益扩展：企业可以在更廉价的硬件（如普通 CPU 或低端 GPU）上运行图像描述服务，降低运营成本。
对带宽受限的鲁棒性：在物联网场景中，图像以低分辨率传输以节省带宽，SOLI 仍能生成高质量描述。
即插即用集成：由于 SOLI 使用标准的 CNN 与 LSTM 组件，可在现有图像描述流水线中最小化代码改动即可替换。

局限性与未来工作

分辨率上限：SOLI 针对极低分辨率（≤ 64×64）进行调优；在更高分辨率图像上，性能提升会逐渐减弱，因为重量级编码器本身已经表现优异。
超分辨率依赖：即时上采样模块带来少量开销；未来工作可探索直接学习嵌入而绕过显式超分辨率的方案。
领域泛化：实验仅限于 COCO 风格场景和小规模辅助技术数据集；需要在更广泛的领域（如医学影像）进行测试。
多语言描述：当前解码器仅支持英文，扩展到多语言生成仍是一个开放方向。

总体而言，SOLI 证明了巧妙的架构设计——尤其是基于 Siamese 的潜在嵌入——能够在保持轻量级的前提下，缩小低分辨率图像描述的性能差距，从而适用于真实世界资源受限的部署场景。

作者

Jing Jie Tan
Anissa Mokraoui
Ban-Hoe Kwan
Danny Wee-Kiat Ng
Yan-Chai Hum

论文信息

arXiv ID: 2512.08873v1
分类: cs.CV, cs.AI, cs.HC
发布日期: 2025 年 12 月 9 日
PDF: Download PDF

[Paper] Siamese驱动的低分辨率图像潜在嵌入优化用于图像字幕生成

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹 鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估