[Paper] Compression Gap: 왜 Discrete Tokenization이 Vision-Language-Action 모델 스케일링을 제한하는가

발행: 1개월 전 (2026년 4월 4일 오전 02:06 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.03191v1

Overview

논문 “The Compression Gap: Why Discrete Tokenization Limits Vision‑Language‑Action Model Scaling” 은 행동이 이산 토큰으로 표현될 때 Vision‑Language‑Action (VLA) 시스템이 더 큰 비전 인코더의 이점을 활용하지 못하게 하는 숨겨진 병목 현상을 밝혀냅니다. 정보를 이론적인 관점에서 문제를 정의함으로써, 저자는 파이프라인에서 가장 타이트한 압축 지점—시각 백본의 크기가 아니라—이 스케일링 효과를 결정한다는 것을 보여줍니다. 이 통찰은 세계를 조작하는 물리‑AI 에이전트를 구축하고 확장하는 방식을 근본적으로 재구성합니다.

주요 기여

Compression‑Gap Principle: 가장 작은 용량을 가진 구성 요소(“가장 빡빡한 병목”)가 VLA 파이프라인의 전체 스케일링 동작을 결정한다는 정보 이론적 규칙을 제시한다.
연속 행동 표현과 이산 행동 표현의 대비: 연속 행동 모델(예: Diffusion Policy)은 비전 인코더에 묶여 있는 반면, 이산 행동 모델(예: OAT)은 코드북에 묶여 있음을 보여준다.
LIBERO에 대한 실증 검증: 원칙을 확인하는 LIBERO 벤치마크에서 세 가지 보완 실험을 제공한다:
1. Factorial upgrade experiment – 비전 인코더 업그레이드가 Diffusion Policy 성능을 >21 pp 향상시키지만 OAT에는 거의 영향을 주지 않는다.
2. Encoder‑quality gradient – Diffusion Policy의 성능은 인코더 품질이 높아짐에 따라 단조롭게 상승하고, OAT는 변함이 없다.
3. Codebook‑size ablation – 이산 코드북을 확대하면 인코더 업그레이드에 대한 민감도가 부분적으로 회복되어 병목이 코드북 용량과 직접 연결됨을 보여준다.
실용적인 스케일링 가이드라인: 모델이나 데이터 크기를 무작정 늘리는 것만으로는 충분하지 않으며, 설계자는 먼저 실제 정보 병목을 찾아 이를 완화해야 함을 보여준다.

방법론

문제 공식화 – VLA 파이프라인은 확률적 맵의 연쇄로 모델링된다: 원시 픽셀 → 비전 인코더 → (옵션) 토크나이제이션 → 액션 디코더. 상호 정보를 사용하여 저자들은 체인 전체에서 최소 정보 흐름이 제한 요인임을 식별한다.
모델 패밀리
- 연속 액션: Diffusion Policy, 인코더 출력으로부터 연속적인 모터 명령을 직접 예측한다.
- 이산 액션: OAT (Offline‑Action‑Transformer), 액션을 고정 크기 코드북으로 양자화한 뒤 트랜스포머에 입력한다.
팩터리얼 실험 설계 – 네 가지 비전 인코더(ViT‑B/16, ViT‑L/14, MAE‑pretrained, 그리고 더 큰 Swin‑Transformer)를 두 액션 헤드와 각각 결합하여 4 × 2 그리드의 모델 구성을 만든다. 다른 모든 학습 하이퍼파라미터는 동일하게 유지한다.
평가 – 모든 모델을 LIBERO 스위트(로봇 조작 과제 집합)에서 학습시키고 성공률을 기준으로 평가한다.
소거 실험
- 인코더 품질 그래디언트: 나머지는 고정하고 인코더만 변경한다.
- 코드북 크기: OAT의 기본 1024 엔트리 코드북을 2048 및 4096 엔트리로 교체하여 성능 변화를 측정한다.

이 방법론은 의도적으로 단순하다: 한 번에 하나의 구성 요소만 교체함으로써 저자들은 각 파이프라인 단계의 인과적 영향을 분리한다.

Results & Findings

모델	비전 인코더 업그레이드 (Δ 성공 %)	더 큰 코드북의 효과
Diffusion Policy (연속)	+21 pp (인코더 업그레이드 전체 평균)	해당 없음 (코드북 없음)
OAT (이산)	+3 pp (평균) – 인코더 크기가 커짐에 따라 이득이 평탄해짐	코드북 크기가 두 배가 될 때 +5–9 pp, 병목 완화 확인

인코더 품질 기울기: Diffusion Policy의 성공률은 인코더 품질을 선형적으로 추적함 (R² ≈ 0.92). OAT의 곡선은 본질적으로 평탄함 (R² ≈ 0.04).
코드북 소거 실험: 코드북을 확장하면 손실된 민감도의 일부가 회복됨—성능은 코드북 용량 증가에 비례하여 향상되지만, 동일한 인코더를 사용한 Diffusion Policy 수준에 도달하지는 못함.

이러한 결과는 Compression‑Gap 원리를 집합적으로 검증한다: 고정 용량의 이산 토크나이저가 하류에 위치하면 시각 정보가 행동에 영향을 미칠 수 있는 양을 제한하여, 더 큰 비전 인코더가 효과를 발휘하지 못하게 만든다.

실용적 시사점

Design Choice for Robotics AI: 더 큰 비전 백본(예: CLIP‑ViT‑L/14, Swin‑Large)을 활용할 수 있는 시스템이 필요하다면, 하드 양자화를 피하는 연속‑액션 디코더 또는 하이브리드 방식을 선택하세요.
Codebook Engineering: 이산 토큰화가 필요할 경우(예: 메모리 효율적인 저장 또는 언어 모델과의 호환성), 비전 인코더만 확장하기보다 더 크고, 필요하면 적응형인 코드북에 투자하세요.
Resource Allocation: 팀은 먼저 병목 현상이 어디에 있는지 프로파일링함으로써 낭비되는 GPU 시간을 줄일 수 있습니다—액션 토크나이저가 제한 요인이라면 데이터나 모델 규모를 늘려도 도움이 되지 않습니다.
Cross‑modal Transfer: 이 원리는 VLA를 넘어 모든 멀티모달 파이프라인(예: 오디오‑텍스트‑액션)에도 적용됩니다. 가장 타이트한 압축 지점을 파악하면 연구 노력을 어디에 집중할지 방향을 잡을 수 있습니다.
Product Roadmaps: 구현형 AI(가정용 로봇, 물류 피커)를 구축하는 기업은 이미 보유하고 있는 대형 비전 모델의 이점을 활용하기 위해 액션 표현(예: 디퓨전 정책, 흐름 기반 컨트롤러) 개선을 우선순위에 둘 수 있습니다.

제한 사항 및 향후 연구

고정된 코드북 아키텍처: 본 연구는 정적 코드북을 사용했으며, 동적이거나 학습된 코드북(예: 가변 용량을 갖는 VQ‑VAE)은 병목 현상을 완화할 수 있지만 탐색되지 않았다.
작업 다양성: 실험은 LIBERO 벤치마크에만 국한되었으며, 힘이나 촉각과 같은 더 풍부한 감각 스트림을 갖는 실제 작업에서는 다른 병목 현상 동역학이 나타날 수 있다.
연속 정책의 확장성: 확산 정책은 강력한 확장성을 보이지만 추론 시 계산 비용이 많이 들 수 있다. 지연 시간과 성능 사이의 trade‑off에 대한 추가 연구가 필요하다.
이론적 확장: 압축‑갭 원리는 상호 정보 관점에서 제시되었지만, 코드북 크기와 달성 가능한 성능을 연결하는 보다 정량적인 경계가 제시된다면 이론이 강화될 것이다.

향후 연구에서는 적응형 토크나이저, 연속‑이산 하이브리드 파이프라인, 그리고 보다 광범위한 멀티모달 설정을 조사하여 압축 갭이 확장 행동을 얼마나 보편적으로 지배하는지 확인할 수 있다.

저자

Takuya Shiba

논문 정보

arXiv ID: 2604.03191v1
분류: cs.RO, cs.CV, cs.LG
출판일: 2026년 4월 3일
PDF: PDF 다운로드

[Paper] Compression Gap: 왜 Discrete Tokenization이 Vision-Language-Action 모델 스케일링을 제한하는가

Overview

주요 기여

방법론

Results & Findings

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] PR3DICTR: 의료 3D 이미지 기반 탐지 및 결과 예측을 위한 모듈형 AI 프레임워크

[Paper] 멀티모달 추론 모델의 Reinforcement Post-Training에서 Hallucination의 역할 이해

[Paper] 조정 가능한 시각 표현

[Paper] VOID: 비디오 객체 및 상호작용 삭제