[Paper] CABLE: Cloud-Assisted Bandwidth-efficient LMM-based Encoding for V2X Systems

발행: 1일 전 (2026년 6월 18일 AM 01:35 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.19258v1

Overview

클라우드에 호스팅된 대형 멀티모달 모델(LMM)은 Vehicle-to-Everything 시스템에 대한 강력한 오픈어휘 인식 기능을 제공할 수 있지만, 엣지에서 클라우드로 전체 해상도 프레임을 naï브하게 전송하면 통신 비용이 크게 늘어나고 클라우드 측 프리필 대기 시간이 높아집니다. 우리는 CABLE이라는 클라우드 보조, 대역폭 효율적인 LMM 기반 인코딩 프레임워크를 제시합니다. CABLE은 이전 클라우드 분할 마스크를 에고 모션 보정으로 엣지에서 전파하고, 잔류 모션 단서를 활용해 정교화한 뒤, 연결되지 않은 영역을 회로 캡슐(envelope)으로 통합하여 견고한 지역 관심 영역(ROI)을 형성합니다. 오직 ROI 마스크가 적용된 이미지만 업로드되며, 클라우드 분할 출력은 다음 프레임에 대한 사전으로 피드백되어 마스크-ROI-LMM 피드백 루프를 구성합니다. nuScenes, WOD-ZB, Waymo, KITTI 및 CADC 다섯 개 데이터셋에 대한 실험 결과는 일관된 통신 절감 효과와 인지 능력을 크게 유지하면서도, ROI 픽셀 커버리지 73~~87% 감소와 LMM 프리필 속도 5~~8배 추정 가속을 달성했으며, 전체 프레임 추론 대비 탐지 품질 손실이 미미함을 보여줍니다.

Key Contributions

이 논문은 다음 분야의 연구를 제시합니다:

cs.CV
cs.RO

Methodology

자세한 방법については 논문 전체를 참고하십시오.

Practical Implications

이 연구는 cs.CV 분야의 발전을 기여합니다.

Authors

Haohua Que
Zhipeng Bao
Qianyi Wu
Handong Yao

Paper Information

arXiv ID: 2606.19258v1
분류: cs.CV, cs.RO
발행일: 2026년 6월 17일
PDF: Download PDF

[Paper] CABLE: Cloud-Assisted Bandwidth-efficient LMM-based Encoding for V2X Systems

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 현재 관측을 넘어서: 제어 가능한 비마르코 게임에서의 다중모달 대형 언어 모델 평가

‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터

[논문] 참조 기반 다중 스피커 오디오 씬 생성