[Paper] RAPID：冗余感知与兼容性最优的边缘‑云分区推理，适用于多样化 VLA 模型

发布: 2天前 (2026年3月9日 GMT+8 12:30)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.07949v1

Overview

本文介绍了 RAPID，一种面向 Vision‑Language‑Action (VLA) 模型的新型边缘‑云协同推理框架，这类模型为具身 AI 代理（例如机器人、AR/VR 助手）提供动力。通过在资源受限的边缘设备和强大的云服务器之间智能划分模型，RAPID 将推理延迟降低至最高 1.73×，且仅增加 5‑7 % 的额外开销，使实时 VLA 应用更加实用。

关键贡献

Redundancy‑aware partitioning: 检测并跳过在顺序具身任务中常见的逐步冗余计算，保持运动连续性。
Noise‑robust edge‑cloud split: 引入一种对视觉噪声具有弹性的策略，防止分区点因杂乱或模糊场景而不稳定。
Compatibility‑optimal design: 可与多种现有 VLA 架构配合使用，无需模型再训练或大量代码修改。
Prototype implementation & evaluation: 在基准 VLA 工作负载（如 RoboTHOR、ALFRED）上展示最高 1.73 倍加速，仅产生 5‑7 % 的适度开销。
Open‑source reference: 提供可模块化的代码库，可快速接入常见的 PyTorch / TensorRT 流程，实现快速采用。

方法论

Profiling the VLA pipeline – 作者首先将 VLA 模型拆解为三个逻辑阶段：视觉编码、语言落地和动作解码。对每个阶段在边缘硬件（如 Jetson Nano、Snapdragon）和云端 GPU 上进行性能剖析，以获取延迟和内存占用情况。
Redundancy detection – 通过轻量级的时序一致性估计器，RAPID 识别出视觉场景或语言指令变化极小的帧。对于这些帧，直接复用之前计算好的中间张量，而不是重新计算，从而实现对冗余工作“跳过”。
Noise‑aware partition point selection – 强化学习控制器在不同视觉噪声条件（如运动模糊、遮挡）下评估候选分割点。控制器学习到一种策略，倾向于选择中间表示对噪声不敏感的分割位置，以确保离线学习的分割决策在实际运行中保持稳定。
Dynamic scheduling – 运行时，RAPID 监控网络带宽和设备负载。如果条件发生偏移，它可以即时迁移分割点，始终遵循离线学习得到的冗余和噪声约束。
Implementation glue – 框架将选定的子图封装在 RPC 层（gRPC + protobuf）中，并使用共享内存缓冲区避免数据拷贝，使额外开销保持在 7 % 以下。

整个流水线基于标准深度学习库构建，开发者只需进行少量配置，即可将 RAPID 嵌入现有 VLA 代码库。

结果与发现

指标	仅边缘	仅云端	RAPID（边缘‑云）
端到端延迟 (ms)	210	95	122 (≈比仅边缘快 1.73×)
每次推理带宽使用 (MB)	–	120	38
冗余跳过率	N/A	N/A	32 % 的帧
精度下降（任务成功率）	0 %	0 %	<1 %

延迟： RAPID 在网络稳定（≥10 Mbps）时始终优于纯边缘推理。
开销： 额外的 5‑7 % 来自 RPC 编组和冗余估计器，作者指出相较于节省的计算，这几乎可以忽略不计。
对噪声的鲁棒性： 在合成视觉噪声（高斯模糊、随机遮挡）实验中，RAPID 的划分决策保持稳定，而基线方法出现最高 30 % 的延迟峰值。
任务表现： 因为仅在场景/动作未变化时才跳过冗余帧，整体在具身基准上的成功率几乎保持不变。

实际影响

机器人与边缘 AI: 开发自动无人机、仓库机器人或家庭助理的开发者可以在不对边缘硬件进行超额配置的情况下运行大型 VLA 模型，延长电池寿命并降低体积限制。
AR/VR 流媒体: 实时字幕或手势引导界面可以将大部分 VLA 计算卸载到云端，同时保持足够低的延迟以实现沉浸式体验。
可扩展的 SaaS 平台: 云服务提供商可以提供一个 “RAPID‑enabled” 推理端点，自动适配客户端设备能力，简化 SDK 设计。
网络感知部署: 动态调度组件使得在可变的 5G/Wi‑Fi 链路上部署 VLA 服务成为可能，能够根据当前带宽自动限制或扩大云端参与。

简而言之，RAPID 为工程师提供了一种即插即用的方式，让他们在无需重写模型的前提下，兼顾边缘响应速度和云端算力的双重优势。

局限性与未来工作

对时间冗余的依赖： 对于场景高度动态的任务（例如快速运动的体育赛事），可能会出现较少的跳过机会，从而降低加速比。
网络假设： 当前原型假设上行链路相对稳定；极端的延迟或数据包丢失可能会降低性能。
模型无关但硬件不无关： 需要为每个新边缘设备重新进行分析阶段，这会增加校准步骤。

作者提出的未来研究方向包括：将冗余估计器扩展以处理多模态（音视频）流，集成更复杂的带宽预测模型，以及探索在设备端学习，以在实际环境中持续自适应分区策略。

作者

Zihao Zheng
Sicheng Tian
Hangyu Cao
Chenyue Li
Jiayu Chen
Maoliang Li
Xinhao Sun
Hailong Zou
Guojie Luo
Xiang Chen

论文信息

arXiv ID: 2603.07949v1
分类: cs.DC, cs.RO
发表时间: 2026年3月9日
PDF: 下载 PDF

[Paper] RAPID：冗余感知与兼容性最优的边缘‑云分区推理，适用于多样化 VLA 模型

Overview

关键贡献

方法论

结果与发现

实际影响

局限性与未来工作

作者

论文信息

相关文章

[Paper] 速度的官僚主义：内存一致性模型与多代理授权撤销之间的结构等价

[Paper] 异构随机场在有限格子上的 Rate-Distortion 界限

[Paper] Randomized Distributed Function Computation (RDFC)：超高效语义通信在隐私中的应用

[Paper] PIM-SHERPA：通过解决 PIM 内存属性和布局不一致性实现设备端 LLM 推理的软件方法