[Paper] 저해상도 이미지 잠재 임베딩을 위한 Siamese-Driven Optimization in Image Captioning

발행: (2025년 12월 10일 오전 03:05 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.08873v1

개요

이 논문은 SOLI(Siamese‑Driven Optimization for Low‑Resolution Image Latent Embedding)를 소개합니다. SOLI는 대형 트랜스포머 인코더의 무거운 연산 비용 없이 저해상도 이미지에 대한 이미지‑캡션 성능을 향상시키는 경량 프레임워크입니다. Siamese 네트워크를 활용해 풍부한 잠재 임베딩을 학습함으로써, 엣지 디바이스나 GPU 메모리가 제한된 환경에서도 캡션 모델을 배포할 수 있게 합니다.

주요 기여

  • Siamese 기반 잠재 임베딩: 원본 저해상도 이미지와 초해상도 버전을 동시에 처리하는 듀얼‑브랜치 네트워크로, 인코더가 해상도에 무관한 특징을 학습하도록 강제합니다.
  • 경량 아키텍처: 무거운 Vision Transformer 대신 MobileNetV2와 같은 컴팩트한 CNN 백본을 사용해 Raspberry Pi 4에서 추론 지연 시간을 최대 **45 %**까지 감소시킵니다.
  • 공동 최적화 손실: 두 브랜치를 정렬하는 contrastive loss와 기존의 cross‑entropy 캡션 손실을 결합해 의미 일관성을 향상시킵니다.
  • 자원‑인식 학습 파이프라인: 이미지 해상도를 점진적으로 높이는 커리큘럼을 도입해 ≤ 2 GB GPU 메모리로도 모델이 수렴하도록 합니다.
  • 포괄적 평가: MS‑COCO‑LR(저해상도 서브셋) 및 실제 보조 기술 데이터셋에서 기존 CNN‑LSTM 모델 대비 +3.2 CIDEr 향상을 달성했으며, 파라미터 수는 ≈ 30 % 감소했습니다.

방법론

  1. 듀얼‑패스웨이 Siamese 인코더

    • Branch A는 원시 저해상도 이미지(예: 64×64)를 입력받습니다.
    • Branch B는 실시간으로 생성된 초해상도 버전(예: 2‑layer sub‑pixel CNN)을 입력받습니다.
    • 두 브랜치는 동일한 경량 CNN 가중치를 공유해 공통 표현 공간을 학습합니다.
  2. Contrastive Alignment

    • 같은 이미지에 대해 두 브랜치의 임베딩을 가깝게, 서로 다른 이미지에 대해서는 멀어지게 하는 contrastive loss를 적용합니다.
    • 이를 통해 인코더는 해상도‑특정 노이즈를 무시하고 고수준 의미에 집중하게 됩니다.
  3. 캡션 디코더

    • 두 브랜치에서 평균한 병합 임베딩을 주의(attention) 메커니즘을 갖춘 소형 LSTM‑based 디코더에 전달합니다.
    • 표준 teacher‑forcing 및 cross‑entropy 손실에 더해 강화학습 단계(CIDEr‑optimisation)를 수행합니다.
  4. 학습 커리큘럼

    • 순수 저해상도 입력으로 시작해 점차 고해상도 초해상도 이미지를 도입함으로써 그래디언트 폭발 없이 네트워크가 부드럽게 적응하도록 합니다.

결과 및 발견

모델파라미터 (M)FLOPs (G)CIDEr ↑BLEU‑4 ↑
Baseline CNN‑LSTM (64×64)12.42.1106.534.2
Vision‑Transformer (large)85.015.8109.835.1
SOLI (제안)14.12.4109.735.0
  • Raspberry Pi 4에서 Latency: SOLI ≈ 180 ms/이미지 vs. Transformer ≈ 620 ms.
  • 학습 중 Memory footprint가 2 GB 이하로 유지돼 일반 소비자용 GPU에서도 fine‑tuning이 가능했습니다.
  • 정성적 분석에서 SOLI는 “벽돌 벽에 기대어 있는 빨간 자전거”와 같이 저해상도 입력에서도 세부 정보를 잘 보존하는 캡션을 생성했습니다.

실용적 함의

  • 엣지 배포: 개발자는 SOLI를 모바일 앱, 스마트 카메라, 시각 장애인 보조 기기에 클라우드 백엔드 없이 직접 탑재할 수 있습니다.
  • 비용 효율적 확장: 기업은 저가 하드웨어(예: 일반 CPU 또는 저사양 GPU)에서 캡션 서비스를 운영해 운영 비용을 절감할 수 있습니다.
  • 대역폭 제약에 대한 강인성: IoT 환경에서 저해상도 이미지만 전송해도 SOLI는 높은 품질의 설명을 생성합니다.
  • 플러그‑앤‑플레이 통합: SOLI는 표준 CNN 및 LSTM 구성 요소를 사용하므로 기존 이미지‑캡션 파이프라인에 최소한의 코드 변경만으로 적용할 수 있습니다.

한계 및 향후 연구

  • 해상도 상한: SOLI는 매우 낮은 해상도(≤ 64×64)에 최적화돼 있어, 고해상도 이미지에서는 무거운 인코더가 이미 우수한 성능을 보이므로 이점이 감소합니다.
  • 초해상도 의존성: 실시간 업샘플링 모듈이 작은 오버헤드를 추가하므로, 명시적 초해상도를 생략하고 임베딩 자체를 학습하는 방법을 탐구할 여지가 있습니다.
  • 도메인 일반화: 실험은 COCO‑스타일 장면과 소규모 보조 기술 데이터셋에 국한됐으며, 의료 영상 등 다양한 도메인에 대한 검증이 필요합니다.
  • 다국어 캡션: 현재 디코더는 영어 전용이므로, 다국어 생성으로 확장하는 것이 향후 과제입니다.

전반적으로 SOLI는 Siamese‑driven 잠재 임베딩이라는 설계 선택을 통해 저해상도 이미지 캡션의 성능 격차를 메우면서도 실제 자원 제한 환경에 적합한 경량성을 입증했습니다.

저자

  • Jing Jie Tan
  • Anissa Mokraoui
  • Ban-Hoe Kwan
  • Danny Wee-Kiat Ng
  • Yan-Chai Hum

논문 정보

  • arXiv ID: 2512.08873v1
  • Categories: cs.CV, cs.AI, cs.HC
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »