[Paper] RAPID: 다양한 VLA 모델을 위한 Redundancy-Aware 및 Compatibility-Optimal Edge-Cloud 파티션 추론

발행: (2026년 3월 9일 PM 01:30 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2603.07949v1

개요

이 논문은 RAPID라는 새로운 엣지‑클라우드 협업 추론 프레임워크를 소개합니다. 이 프레임워크는 구현형 AI 에이전트(예: 로봇, AR/VR 어시스턴트)를 구동하는 Vision‑Language‑Action (VLA) 모델을 위해 설계되었습니다. 리소스가 제한된 엣지 디바이스와 강력한 클라우드 서버 사이에 모델을 지능적으로 분할함으로써, RAPID는 추론 지연 시간을 최대 1.73배까지 줄이는 동시에 5‑7 % 정도의 추가 오버헤드만 발생시켜, 실시간 VLA 애플리케이션을 훨씬 더 실용적으로 만듭니다.

주요 기여

  • Redundancy‑aware partitioning: 순차적인 구현 작업에서 흔히 발생하는 단계별 중복 연산을 감지하고 건너뛰어, 움직임 연속성을 유지합니다.
  • Noise‑robust edge‑cloud split: 시각적 잡음에 강인한 전략을 도입하여, 복잡하거나 모호한 장면에 의해 파티션 지점이 불안정해지는 것을 방지합니다.
  • Compatibility‑optimal design: 기존 다양한 VLA 아키텍처와 호환되며, 모델 재학습이나 대규모 코드 변경 없이 사용할 수 있습니다.
  • Prototype implementation & evaluation: RoboTHOR, ALFRED 등 벤치마크 VLA 워크로드에서 최대 1.73배의 속도 향상을 보여주며, 오버헤드는 단 5‑7 %에 불과합니다.
  • Open‑source reference: 일반적인 PyTorch / TensorRT 파이프라인에 쉽게 적용할 수 있는 모듈형 코드베이스를 제공하여 빠른 도입을 지원합니다.

방법론

  1. Profiling the VLA pipeline – 저자들은 먼저 VLA 모델을 시각 인코딩, 언어 그라운딩, 행동 디코딩이라는 세 가지 논리 단계로 나눈다. 각 단계는 엣지 하드웨어(예: Jetson Nano, Snapdragon)와 클라우드 GPU에서 프로파일링되어 지연 시간과 메모리 사용량을 측정한다.

  2. Redundancy detection – 경량의 시간‑일관성 추정기를 사용하여 RAPID는 시각 장면이나 언어 명령이 최소한으로 변하는 프레임을 식별한다. 이러한 프레임에 대해서는 이전에 계산된 중간 텐서를 재사용함으로써 재계산을 피하고, 실질적으로 중복 작업을 “건너뛴다”.

  3. Noise‑aware partition point selection – 강화학습 컨트롤러가 다양한 시각‑노이즈 조건(예: 움직임 흐림, 가림 현상) 하에서 후보 분할 지점을 평가한다. 컨트롤러는 중간 표현이 노이즈에 덜 민감한 분할 위치를 선호하는 정책을 학습하여, 안정적인 오프로드 결정을 보장한다.

  4. Dynamic scheduling – 런타임에 RAPID는 네트워크 대역폭과 디바이스 부하를 모니터링한다. 상황이 변하면 오프라인에서 학습된 중복 및 노이즈 제약을 항상 준수하면서 파티션 지점을 실시간으로 이동시킬 수 있다.

  5. Implementation glue – 프레임워크는 선택된 서브‑그래프를 RPC 레이어(gRPC + protobuf)로 감싸고, 데이터 복사를 방지하기 위해 공유 메모리 버퍼를 사용하여 추가 오버헤드를 7 % 이하로 유지한다.

전체 파이프라인은 표준 딥러닝 라이브러리를 기반으로 구축되었으며, 개발자는 몇 가지 설정만 변경하면 기존 VLA 코드베이스에 RAPID를 손쉽게 적용할 수 있다.

결과 및 발견

측정항목엣지 전용클라우드 전용RAPID (엣지‑클라우드)
종단 간 지연 시간 (ms)21095122 (≈1.73× 빠름, 엣지 전용 대비)
대역폭 사용량 (추론당 MB)12038
중복 건너뛰기 비율N/AN/A32 % of frames
정확도 감소 (작업 성공률)0 %0 %<1 %
  • 지연 시간: RAPID는 특히 네트워크가 안정적일 때(≥10 Mbps) 순수 엣지 추론보다 일관되게 우수합니다.
  • 오버헤드: 추가 5‑7 %는 RPC 마샬링 및 중복 추정기에서 발생하며, 저자들은 이것이 절감된 연산량에 비해 무시할 수 있다고 보여줍니다.
  • 노이즈에 대한 강인성: 합성 시각 노이즈(가우시안 블러, 무작위 가림) 실험에서 RAPID의 파티션 결정은 안정적이었으며, 반면 기준 방법은 최대 30 % 지연 시간 급증을 겪었습니다.
  • 작업 성능: 중복 프레임은 장면/동작이 변하지 않을 때만 건너뛰기 때문에, 구현된 벤치마크에서 전체 성공률은 거의 변하지 않습니다.

Practical Implications

  • Robotics & Edge AI: 개발자들이 자율 드론, 창고 로봇, 혹은 홈 어시스턴트를 구축할 때, 과도한 엣지 하드웨어를 사용하지 않고도 무거운 VLA 모델을 실행할 수 있어 배터리 수명을 연장하고 폼‑팩터 제약을 줄일 수 있습니다.
  • AR/VR streaming: 실시간 캡션이나 제스처 기반 인터페이스는 VLA 연산의 대부분을 클라우드에 오프로드하면서도 몰입형 경험을 위한 충분히 낮은 지연 시간을 유지할 수 있습니다.
  • Scalable SaaS platforms: 클라우드 제공자는 “RAPID‑enabled” 추론 엔드포인트를 제공할 수 있으며, 이는 자동으로 클라이언트 디바이스의 능력에 맞게 조정되어 SDK 설계를 단순화합니다.
  • Network‑aware deployment: 동적 스케줄링 구성 요소 덕분에 가변적인 5G/Wi‑Fi 연결을 통해 VLA 서비스를 배포하는 것이 가능해지며, 현재 대역폭에 따라 클라우드 참여를 자동으로 제한하거나 확대합니다.

요약하면, RAPID는 엔지니어에게 모델을 다시 작성할 필요 없이 엣지의 반응성 및 클라우드의 연산력을 동시에 활용할 수 있는 플러그‑앤‑플레이 방식을 제공합니다.

제한 사항 및 향후 연구

  • 시간적 중복성에 대한 의존성: 장면이 매우 동적인 작업(예: 빠르게 움직이는 스포츠)에서는 건너뛰기 기회가 줄어들어 속도 향상이 감소할 수 있습니다.
  • 네트워크 가정: 현재 프로토타입은 비교적 안정적인 업링크를 전제로 합니다; 극심한 지연이나 패킷 손실이 발생하면 성능이 저하될 수 있습니다.
  • 모델에는 친화적이지만 하드웨어에는 친화적이지 않음: 프로파일링 단계는 새로운 엣지 디바이스마다 다시 수행해야 하므로 보정 단계가 추가됩니다.

저자들이 제시한 향후 연구 방향으로는 중복성 추정기를 멀티모달(오디오‑비주얼) 스트림을 처리하도록 확장하고, 보다 정교한 대역폭 예측 모델을 통합하며, 현장에서 파티션 정책을 지속적으로 적응시키는 온‑디바이스 학습을 탐구하는 것이 포함됩니다.

저자

  • Zihao Zheng
  • Sicheng Tian
  • Hangyu Cao
  • Chenyue Li
  • Jiayu Chen
  • Maoliang Li
  • Xinhao Sun
  • Hailong Zou
  • Guojie Luo
  • Xiang Chen

논문 정보

  • arXiv ID: 2603.07949v1
  • 분류: cs.DC, cs.RO
  • 출판일: 2026년 3월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »