지각 이미지 코덱: 실용적인 학습 이미지 압축에서 중요한 점
출처: Hacker News
소개
PICO(Perceptual Image Codec)를 소개합니다 — 실용적이면서 인간 시각 시스템에 직접 최적화된 최초의 학습 기반 코덱입니다. 이를 구현하기 위해 실용적인 학습 코덱에 대한 모델링 선택을 포괄적으로 연구하고, 수백만 개의 모델 구성을 탐색하여 지각 품질과 디바이스 실행 시간을 동시에 최적화했습니다.
대규모 주관적 사용자 연구에 기반해, PICO는 AV1, AV2, VVC, ECM 및 JPEG‑AI 대비 2.3‑3배의 비트레이트 절감 효과를 제공하며, 최고의 학습 기반 코덱 대비 **20‑40%**의 비트레이트 절감 효과를 보입니다. 동시에 iPhone 17 Pro Max에서는 12MP 이미지를 230 ms에 인코딩하고 150 ms에 디코딩하여, V100 GPU에서 실행되는 대부분의 최첨단 ML 기반 코덱보다 빠릅니다. 대부분의 학습 코덱과 달리, PICO는 크로스 플랫폼 견고성 보증도 제공합니다.
다양한 이미지에 대한 인터랙티브 비교. PICO(우리)는 왼쪽에 고정되어 있습니다. 오버레이 버튼에서 이미지와 비교 방식을 선택한 뒤 슬라이더를 드래그하여 비교하세요. 큰 화면에서 보는 것이 가장 좋습니다.
전통적인 코덱과 학습 기반 코덱을 실용성 관점에서 비교한 결과.

전통 및 학습 코덱에 대한 최신 비교. 지각 BD‑rate는 대규모 주관적 연구에서 얻은 인간 평가를 기반으로 합니다. iPhone 17 Pro Max에서의 속도 벤치마크는 동일한 컴파일러 최적화를 사용합니다.
인용
우리 연구가 유용하다고 생각되시면 다음을 인용해 주세요:
@article{tatwawadi2026pico,
title={What Matters in Practical Learned Image Compression},
author={Tatwawadi, Kedar and Rahimzadeh, Parisa and Sun, Zhanghao and Chen, Zhiqi and Yang, Ziyun and Nair, Sanjay and Hasteer, Divija and Rippel, Oren},
journal={arXiv preprint arXiv:2605.05148},
year={2026}
}