[논문] Ω‑QVLA: 복합 회전·단계별 스케일링으로 비전‑언어‑액션 모델 강인 양자화
Source: arXiv - 2605.28803v1
개요
이 논문은 Ω‑QVLA라는 훈련 없이 수행하는 사후 양자화(PTQ) 기법을 소개한다. 이 기법은 Vision‑Language‑Action(VLA) 모델의 메모리와 연산 요구량을 크게 줄인다. 거대한 언어 백본 과 확산 기반 액션 헤드를 모두 4‑bit 가중치 / 4‑bit 활성화(W4A4) 형식으로 압축함으로써, Ω‑QVLA는 수십억 파라미터 규모의 VLA 정책을 성능 저하 없이 온‑디바이스에 배포할 수 있게 만든다.
주요 기여
- 전체 VLA 파이프라인에 대한 최초의 균일 W4A4 PTQ – 기존 연구가 의존하던 혼합 정밀도 트릭을 없앤다.
- Composite SVD‑Hadamard 회전 – 채널별 에너지를 균등하게 만드는 새로운 가중치 공간 변환으로, 네트워크 전체의 양자화 오차를 감소시킨다.
- 단계별 DiT 활성화 스케일링 – 확산 디노이징 단계마다 활성화를 동적으로 재스케일링해, 저비트 양자화에서 흔히 발생하는 범위 드리프트를 중화한다.
- 훈련 불필요 – 소수의 데이터 샘플에 대한 짧은 캘리브레이션 실행만 필요하며, 비용이 많이 드는 미세조정이나 재훈련이 전혀 필요하지 않다.
- 강력한 실험 결과 – LIBERO 벤치마크에서 Ω‑QVLA는 Pi‑0.5와 GR00T‑N1.5에 대해 각각 98.0 %와 87.8 %의 태스크 성공률을 기록했으며, FP16 기준과 동등하거나 능가하면서 정적 메모리를 71 % 절감했다.
방법론
-
Composite SVD‑Hadamard를 이용한 가중치 회전
- 각 가중치 행렬을 먼저 잘라낸 SVD로 분해해 주요 특이 방향을 추출한다.
- 남은 부분 공간에 빠르고 직교적인 Hadamard 변환을 적용한다.
- 두 변환을 결합한 회전은 에너지를 채널 전체에 고르게 퍼뜨려, 이후 4‑bit 양자화기가 보다 균일한 분포를 보게 만든다.
-
확산 액션 헤드에 대한 단계별 활성화 스케일링
- 확산 모델은 일련의 디노이징 단계마다 행동을 생성하며, 각 단계마다 고유한 활성화 통계가 존재한다.
- Ω‑QVLA는 각 단계마다 양자화 직전에 가벼운 스케일링 팩터를 삽입하고, 이는 소규모 캘리브레이션 세트로부터 분석적으로 학습된다.
- 이 스케일링은 저비트 활성화에서 발생할 수 있는 “동적 범위 드리프트”를 흡수해 오버플로/언더플로를 방지한다.
-
균일 사후 양자화
- 회전과 스케일링이 끝난 뒤, 모든 가중치와 활성화를 대칭 라운딩을 사용해 4‑bit 정수로 양자화한다.
- 그래디언트 기반 미세조정은 전혀 수행되지 않으며, 전체 과정은 완전히 결정적이고 몇 분 안에 스크립트로 실행할 수 있다.
결과 및 고찰
| 모델 | 정밀도 | 태스크 성공률 (LIBERO) | FP16 기준 | 메모리 감소율 |
|---|---|---|---|---|
| Pi‑0.5 | W4A4 | 98.0 % | 97.1 % | 71.3 % |
| GR00T‑N1.5 | W4A4 | 87.8 % | 87.0 % | 71.3 % |
- 정확도 동등성: 4‑bit이라는 공격적인 압축에도 불구하고 성공률은 풀프리시전 모델과 동등하거나 약간 더 높다.
- 안정성: 확산 헤드를 양자화하던 기존 PTQ 방법들은 종종 충돌하거나 불규칙한 행동을 보였지만, Ω‑QVLA의 단계별 스케일링은 이러한 실패를 완전히 제거한다.
- 실제 로봇 검증: 로봇 조작 실험(픽‑앤‑플레이스, 서랍 열기)에서 양자화된 정책은 FP16과 비교해 부드러운 궤적을 수행했으며, 혼합 정밀도 기반 베이스라인은 진동을 보이거나 물체를 놓치는 경우가 있었다.
실용적 함의
- 엣지 배포: 로봇 플랫폼, AR/VR 헤드셋, 모바일 에이전트가 이제 복잡한 VLA 정책을 온‑디바이스에서 실행할 수 있어 지연 시간이 감소하고 클라우드 의존도가 낮아진다.
- 에너지 절감: 4‑bit 연산은 특화 가속기(NVIDIA TensorRT INT4, Qualcomm Hexagon 등)에서 전력 소모를 크게 줄여 자율 시스템의 배터리 수명을 연장한다.
- 파이프라인 단순화: 균일 정밀도는 혼합 정밀도 스케줄링에 필요한 엔지니어링 작업을 없애, 모델 배포와 버전 관리가 제품 팀에게 훨씬 쉬워진다.
- 빠른 프로토타이핑: Ω‑QVLA는 훈련이 필요 없으므로 새로운 VLA 변형을 몇 분 안에 양자화하고, 비용이 많이 드는 미세조정 없이 실제 하드웨어에서 바로 평가할 수 있다.
제한점 및 향후 연구
- 캘리브레이션 데이터 의존성: 단계별 스케일링 팩터는 소규모 캘리브레이션 세트에서 도출되므로, 극단적인 도메인 변동(예: 새로운 물체나 조명)에서는 재캘리브레이션이 필요할 수 있다.
- 하드웨어 지원: 4‑bit 매트멀 연산을 효율적으로 수행할 수 있는 가속기가 전제되어야 하며, INT4 커널을 제공하지 않는 CPU·GPU에서는 속도 향상이 제한적일 수 있다.
- 확산 헤드 외 일반화: 현재 방법은 DiT‑스타일 확산 액션 헤드에 잘 맞지만, 자동 회귀 플래너와 같은 다른 생성 제어 아키텍처에 대한 적용 가능성은 아직 검증되지 않았다.
Ω‑QVLA는 정교한 선형대수 트릭을 통해 확산 기반 액션 모델에 대한 저비트 양자화라는 오래된 장벽을 허물었으며, 진정한 온‑디바이스 지능형 에이전트의 시대를 열었다.
저자
- Xinyu Wang
- Mingze Li
- Sicheng Lyu
- Dongxiu Liu
- Kaicheng Yang
- Ziyu Zhao
- Yufei Cui
- Xiao‑Wen Chang
- Peng Lu
논문 정보
- arXiv ID: 2605.28803v1
- 분류: cs.CV, cs.LG
- 발표일: 2026년 5월 27일
- PDF: PDF 다운로드