[Paper] ResAdapt: 효율적인 멀티모달 추론을 위한 적응형 해상도

발행: (2026년 3월 31일 AM 12:57 GMT+9)
11 분 소요
원문: arXiv

Source: arXiv - 2603.28610v1

Overview

논문 ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning은 멀티모달 대형 언어 모델(MLLM)에서 점점 커지는 문제점을 다룹니다. 고해상도 이미지나 더 긴 비디오 클립을 입력하면 시각 토큰 수가 급격히 증가하여 모델의 컨텍스트 윈도우와 연산 예산을 빠르게 초과하게 됩니다. 전체 MLLM을 재설계하는 대신, 저자들은 인코딩 에 각 프레임이 받을 픽셀 수(즉, 시각 해상도)를 결정하는 가벼운 “예산 할당기(budget allocator)”를 제안합니다. 이 입력 측면의 적응을 통해 동일한 백본 MLLM이 제한된 시각 예산 하에서도 더 많은 프레임이나 더 높은 품질의 이미지를 처리할 수 있게 됩니다.

주요 기여

  • ResAdapt 프레임워크 – 시각적 해상도를 프레임별로 할당하는 플러그‑인‑플레이 전처리기로, 하위 MLLM은 그대로 유지됩니다.
  • 맥락 기반 밴딧 형식 – 할당 문제를 의사결정 과제로 정의하여, 각 프레임의 해상도를 해당 내용과 전체 예산에 기반해 선택되는 “팔(arm)”으로 간주합니다.
  • Cost‑Aware Policy Optimization (CAPO) – 희소한 정확도 피드백(예: QA 정답률)을 안정적인 그래디언트 신호로 변환하여 성능 토큰 비용을 동시에 최적화하는 학습 레시피입니다.
  • 뛰어난 실증적 향상 – 비디오 QA, 시간적 그라운딩, 이미지‑추론 벤치마크에서 ResAdapt는 동일한 토큰 예산 하에 최대 16배 더 많은 프레임을 처리하고, 압축 설정이 강력할 때 정확도를 15 % 이상 향상시킵니다.
  • 오픈소스 공개 – 코드와 사전 학습된 할당기(allocator)가 공개되어 재현성과 하위 적용이 용이합니다.

방법론

  1. Allocator Network – 각 프레임의 저비용 프리뷰(예: 다운샘플된 썸네일)를 입력으로 받아, 전체 인코더가 해당 프레임에 할당해야 할 시각 토큰 수를 나타내는 스칼라 “예산”을 출력하는 작은 CNN‑스타일 모듈.
  2. Operator‑Transformed Input – 할당기의 예산을 사용해 원본 프레임을 크기 조정하거나 압축(예: 적응형 다운샘플링, 패치 병합, 선택적 영역 크롭)한 뒤, 변경되지 않은 MLLM 시각 인코더에 입력한다.
  3. Learning as a Contextual Bandit – 각 프레임의 프리뷰를 컨텍스트로 삼고, 선택된 해상도를 행동으로 하며, 보상은 작업 정확도(예: 정답)와 토큰 수에 비례하는 페널티를 결합한다.
  4. CAPO Training Loop – 롤아웃(샘플링된 할당으로 프레임 배치를 처리) 후 시스템이 보상을 계산하고, 비용 항을 명시적으로 고려하는 정책‑그라디언트 스타일 옵티마이저를 사용해 할당기의 정책을 업데이트한다. 이를 통해 희소하고 지연된 보상 신호에도 학습이 안정화된다.
  5. Integration – 할당기가 MLLM 외부에 위치하므로 기존 멀티모달 LLM(예: Flamingo, LLaVA)을 구조적 변경 없이 그대로 적용할 수 있다.

Source:

결과 및 발견

작업시각적 예산 (토큰)기준 (고정 해상도)ResAdapt상대적 향상
Video QA (MSRVTT‑QA)클립당 4 k 토큰58.2 % 정확도66.9 %+14.9 %
Temporal Grounding (YouCook2)2 k 토큰42.5 % IoU48.1 %+13.2 %
Image Reasoning (VCR)1 k 토큰71.0 %77.4 %+9.0 %
동일 4 k 토큰 예산당 프레임 수4 프레임64 프레임+1500 %
  • 효율성 프론티어: 다양한 예산을 탐색한 결과, ResAdapt은 일관되게 파레토 최적 거래‑오프 곡선 위 또는 근처에 위치합니다. 즉, 토큰을 더 많이 사용하지 않고는 정확도를 향상시킬 수 없으며, 반대로 정확도를 높이려면 토큰을 더 사용해야 합니다.
  • 견고성: 모델이 단일 고해상도 프레임보다 더 많은 시간적 컨텍스트를 보는 것이 유리한 추론 중심 벤치마크에서 향상이 가장 두드러집니다.
  • 소거 실험: CAPO에서 비용 항을 제거하면 과다 할당(고해상도이지만 토큰 예산을 준수하지 못함)이 발생하여, 비용 인식 목표의 필요성을 확인합니다.

실용적 시사점

  • 확장 가능한 비디오 이해: 채팅 기반 비디오 어시스턴트를 구축하는 개발자는 이제 토큰 제한을 초과하지 않고 더 긴 클립(예: 30 s, 30 fps)을 입력할 수 있어, 보다 풍부한 시간적 추론이 가능해집니다.
  • 엣지 배포: GPU 메모리가 제한된 디바이스에서 ResAdapt는 “지루한” 프레임의 해상도를 동적으로 낮추면서 중요한 순간의 디테일은 유지해, 추론 지연 시간을 낮게 유지합니다.
  • 플러그‑앤‑플레이 업그레이드: 이미 MLLM(예: LLaVA‑Video)을 사용하는 기존 파이프라인은 할당기 모듈을 삽입함으로써 ResAdapt를 도입할 수 있으며, 거대한 언어‑시각 백본을 재학습할 필요가 없습니다.
  • 비용 효율적인 API 사용: 토큰당 요금을 부과하는 SaaS 제공업체에게 ResAdapt는 토큰 사용량을 크게 줄여, 최종 사용자에게 직접적인 운영 비용 절감 효과를 제공합니다.
  • 다른 모달리티에도 일반화 가능: 동일한 할당 원칙을 오디오(비트레이트 선택)나 다중 센서 스트림에 적용할 수 있어, 예산 인식 인지를 위한 보다 넓은 연구 방향을 열어줍니다.

제한 사항 및 향후 연구

  • Allocator Overhead: 경량임에도 불구하고 할당자는 추가적인 forward pass를 수행한다; 초저지연 상황에서는 이것이 무시할 수 없는 비용이 될 수 있다.
  • Dependence on Preview Quality: 할당 결정은 저해상도 프리뷰에 의존한다; 프리뷰가 미세한 신호(예: 작은 객체)를 놓치면 할당자는 중요한 부분에 해상도를 충분히 할당하지 못할 수 있다.
  • Static Budget per Clip: 현재 공식은 입력당 고정된 토큰 예산을 가정한다; 사용자 정의 지연 시간이나 비용 제약에 맞춰 조정되는 동적 예산으로 확장하는 것은 아직 해결되지 않은 과제이다.
  • Broader Model Compatibility: 실험은 특정 MLLM 아키텍처에 집중했으며, ResAdapt가 다양한 크기의 transformer 기반 비전 인코더에서도 동일하게 잘 작동하는지 확인하는 것이 향후 연구 과제이다.
  • Explainability of Allocation: 어떤 프레임이 높은 해상도를 받았는지에 대한 해석 가능한 시각화를 개발자에게 제공하면 신뢰와 디버깅에 도움이 될 수 있다.

ResAdapt는 보다 스마트하고 콘텐츠‑인식 전처리를 통해 오늘날 AI 어시스턴트를 구동하는 거대한 언어‑비전 백본을 재설계하지 않고도 훨씬 효율적인 멀티모달 추론을 가능하게 함을 보여준다. 제한된 컴퓨팅 자원이나 비용 제약 하에 비디오‑중심 AI 제품을 프로덕션에 도입하려는 개발자에게 이 논문은 실용적이며 오픈‑소스인 솔루션을 제공한다.

저자

  • Huanxuan Liao
  • Zhongtao Jiang
  • Yupu Hao
  • Yuqiao Tan
  • Shizhu He
  • Jun Zhao
  • Kun Xu
  • Kang Liu

논문 정보

  • arXiv ID: 2603.28610v1
  • Categories: cs.CV, cs.AI, cs.CL
  • Published: 2026년 3월 30일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »