[Paper] VLIC: Vision-Language Models를 인간 정렬 이미지 압축을 위한 지각 판단자로 활용

발행: (2025년 12월 18일 오전 03:52 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.15701v1

Overview

이 논문은 최신 비전‑언어 모델(VLM)을 지각 판단자로 활용하여 압축된 이미지가 인간의 시각적 선호와 일치하도록 하는 새로운 이미지‑압축 파이프라인 VLIC를 소개한다. VLM의 제로‑샷 추론 능력을 활용함으로써, 저자들은 별도의 지각 손실 네트워크를 별도로 설계하지 않고도 최첨단 방법과 경쟁하거나 이를 능가하는 압축 품질을 달성한다.

주요 기여

  • Zero‑shot perceptual judging: 오프‑더‑쉘프 VLM(e.g., CLIP, BLIP)이 이미지 쌍에 대한 인간의 2‑alternative forced‑choice (2AFC) 판단을 정확히 예측할 수 있음을 보여준다.
  • VLIC architecture: 이진 VLM 판단에 직접 post‑trained된 diffusion 기반 압축기를 구축하여 전용 퍼셉추얼 손실 모델이 필요 없게 만든다.
  • Competitive performance: 여러 벤치마크 데이터셋에서 최첨단 인간 정렬 압축 점수를 달성했으며, 자동 퍼셉추얼 메트릭(LPIPS, DISTS)과 대규모 사용자 연구 모두로 검증되었다.
  • Reward‑design analysis: 다양한 VLM 파생 보상 신호(e.g., raw logits, softmax probabilities, contrastive similarity)가 학습 안정성과 최종 품질에 미치는 영향을 광범위하게 Ablation한다.
  • Open resources: 재현성과 커뮤니티 실험을 위해 코드, 사전 학습 체크포인트, 시각적 데모 사이트를 공개한다.

방법론

  1. Baseline compressor: 저자들은 압축된 잠재 표현으로부터 이미지를 복원하는 방법을 학습하는 diffusion‑ 기반 이미지 압축 모델에서 시작합니다.
  2. Preference data generation: 각 학습 이미지에 대해 두 가지 압축 변형(예: 서로 다른 비트레이트 또는 랜덤 시드)이 생성됩니다. VLM은 “어떤 이미지가 원본과 더 비슷해 보이나요?”와 같은 자연어 질의에 프롬프트되고, 유사도 점수를 기반으로 이진 선호도를 반환합니다.
  3. Reward formulation: VLM의 출력은 스칼라 보상으로 변환됩니다(선호하는 이미지에 대해 더 높은 값). 여러 보상 함수가 탐색되며, 여기에는 다음이 포함됩니다:
    • 두 후보 사이의 Logit 차이.
    • 참조 이미지에 대한 Softmax‑scaled similarity.
  4. Post‑training with RL‑style loss: diffusion 압축기는 간단한 선호 기반 손실(예: REINFORCE 또는 미분 가능한 대리 손실)을 사용해 미세 조정됩니다. 이 손실은 모델이 VLM이 선호하는 변형을 생성하도록 유도합니다. 추가적인 지각 네트워크는 훈련되지 않으며, VLM 자체가 “비평가” 역할을 합니다.
  5. Evaluation pipeline: 미세 조정 후, 모델은 표준 압축 벤치마크에서 테스트됩니다. 인간 정렬도는 다음을 통해 측정됩니다:
    • 객관적 지각 메트릭 (LPIPS, DISTS).
    • 대규모 사용자 연구 where participants perform 2AFC comparisons between VLIC outputs and those of competing methods.

Results & Findings

DatasetBitrate (bpp)LPIPS ↓DISTS ↓Human 2AFC win‑rate vs. best baseline
Kodak0.250.120.0968%
DIV2K‑test0.150.150.1171%
CLIC‑validation0.300.100.0865%
  • VLIC는 전통적인 코덱(JPEG, BPG) 및 MSE 또는 수작업 퍼셉추얼 손실에 의존하는 최신 학습 기반 압축기보다 일관되게 우수한 성능을 보입니다.
  • 제로샷 VLM 판단은 실제 인간 선호도와 강하게 상관관계가 있습니다(≈0.78 Pearson), 이는 VLM이 인간 지각을 신뢰할 수 있는 프록시 역할을 할 수 있음을 확인합니다.
  • Ablation 연구에서는 logit‑difference 보상이 가장 안정적인 학습을 제공하는 반면, 원시 유사도 점수는 모드 붕괴를 일으킬 수 있음을 보여줍니다.
  • 학습 시간 오버헤드는 적당합니다: 사후 학습은 기본 diffusion 모델에 비해 약 15 %의 추가 연산만 필요하며, VLM 추론은 배치 처리 및 캐시됩니다.

Source:

Practical Implications

  • Developer‑ready perceptual loss: 별도의 CNN‑기반 지각 네트워크(예: VGG‑기반 LPIPS)를 학습시키는 대신, 엔지니어는 사전 학습된 VLM을 압축 파이프라인에 바로 연결하여 인간 정렬된 그래디언트를 즉시 얻을 수 있습니다.
  • Zero‑shot adaptability: VLIC은 적절한 언어 힌트를 VLM에 프롬프트함으로써 도메인‑특화 미학(예: 의료 영상, 위성 사진)에 맞게 미세 조정할 수 있습니다—새로운 라벨링된 선호 데이터가 필요 없습니다.
  • Edge‑device compression: VLM은 학습 단계에서만 사용되므로, 추론 시 압축기는 가벼운 구조(디퓨전 디코더 + 작은 잠재 인코더)를 유지합니다. 따라서 지연 시간이 중요한 온‑디바이스 또는 서버‑사이드 배포에 적합합니다.
  • Cross‑modal extensions: 동일한 선호 학습 프레임워크를 비디오 코덱, 오디오 압축, 혹은 생성 모델 디스틸레이션 등 인간 지각 품질이 병목인 분야에 적용할 수 있습니다.
  • Open‑source toolkit: 공개된 코드는 VLM 판단을 생성하고, 보상 함수를 정의하며, 인기 있는 디퓨전 라이브러리(예: Diffusers, Stable Diffusion)와 통합하는 스크립트를 포함하고 있어 빠른 프로토타이핑 장벽을 낮춥니다.

제한 사항 및 향후 연구

  • VLM 편향 전이: VLM은 학습 데이터의 편향을 물려받기 때문에 압축 선호도가 이러한 편향을 반영할 수 있다(예: 특정 객체 카테고리를 선호). 이를 완화하려면 신중한 프롬프트 설계 또는 편향 인식 파인‑튜닝이 필요하다.
  • VLM 추론의 확장성: 연구 규모 데이터셋에서는 허용되지만, 대규모 코퍼스에 대해 VLM 판단을 생성하는 것은 병목이 될 수 있다; 향후 작업에서는 VLM의 선호 함수를 경량 네트워크로 증류하는 방안을 탐색할 수 있다.
  • 해상도 한계: 현재 확산 백본은 ≤512 px 입력에 제한된다; VLIC를 초고해상도 이미지에 적용하려면 계층적 또는 패치 기반 확산 전략이 필요하다.
  • 사용자 연구 다양성: 보고된 인간 연구는 비교적 동질적인 참여자 풀에 초점을 맞추었다; 보다 폭넓은 인구통계학적 테스트가 보편적인 지각 정렬에 대한 주장을 강화할 것이다.
  • 대체 VLM: 논문에서는 소수의 VLM만 평가했으며, 최신 멀티모달 모델(예: Flamingo, LLaVA) 전반에 걸친 체계적인 벤치마킹을 통해 더 강력한 판단자를 발견하거나 실패 모드를 드러낼 수 있다.

VLIC은 대규모 비전‑언어 모델이 압축 시스템의 “눈”이 되어, 언어 기반 시각 추론을 실질적인 대역폭 절감으로 전환하는 유망한 경로를 열어준다.

저자

  • Kyle Sargent
  • Ruiqi Gao
  • Philipp Henzler
  • Charles Herrmann
  • Aleksander Holynski
  • Li Fei-Fei
  • Jiajun Wu
  • Jason Zhang

논문 정보

  • arXiv ID: 2512.15701v1
  • 카테고리: cs.CV
  • 출판일: 2025년 12월 17일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 정교한 World Models

최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…