[Paper] Floe:联邦专化用于实时 LLM‑SLM 推理

发布: (2026年2月16日 GMT+8 04:28)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.14302v1

概览

在对延迟敏感的设备上部署大规模语言模型(LLMs)——比如语音助手、AR 眼镜或本地代码助手——长期以来一直是性能、隐私和计算成本之间的权衡。Floe 提出了一种混合式联邦学习架构,使边缘设备能够在本地保留个人数据并进行微调,同时仍然能够利用云端托管的“黑箱” LLM 的知识。其结果是一个系统,能够在不将庞大的模型权重发送到每个设备的情况下,提供更快、更私密且更个性化的响应。

关键贡献

  • Hybrid federated inference pipeline 将云端的大语言模型(LLM)与设备端的小语言模型(SLMs)耦合,实现实时生成。
  • Privacy‑first design:用户数据永不离开设备;仅交换轻量级 logits,保持云端专有模型权重。
  • Heterogeneity‑aware LoRA adaptation:一种低秩微调技术,能够自动为各种边缘硬件(CPU、GPU、NPU 等)定制 SLM。
  • Logit‑level fusion engine:一种快速的逐标记(token‑by‑token)云端与边缘预测融合引擎,满足实时约束。
  • Comprehensive evaluation 显示相较于标准的仅边缘或仅云基线,延迟降低最高可达 45%,准确率(或相关性)提升 12%。

Source:

方法论

  1. 模型划分 – 云端托管完整规模的 LLM(例如 GPT‑3 级别),保持为黑箱。每个边缘设备运行一个紧凑的 SLM(≈10‑30 M 参数)。
  2. 联邦 LoRA 微调 – 设备本地收集用户交互并对 SLM 应用低秩适配(LoRA)。LoRA 更新以联邦方式聚合,使 SLM 能在保持轻量的同时受益于集体知识。
  3. 实时 Logit 融合 – 对每个生成的 token,边缘 SLM 输出概率分布(logits),并发送至云端。云端 LLM 处理相同的提示,返回其 logits,两者通过加权求和合并,可根据应用调节权重(例如对设备端个性化赋予更高权重)。
  4. 延迟感知调度 – 调度器监控网络 RTT 与设备计算负载;若云端响应可能错过实时截止时间,系统会优雅地回退到仅在边缘生成。
  5. 评估套件 – 基准测试覆盖对话问答、代码补全以及设备端指令理解,分别在 Raspberry Pi 4、Qualcomm Snapdragon 8 Gen 2 和用于云端的桌面 GPU 上进行测量。

结果与发现

指标仅边缘 SLM仅云端 LLMFloe(混合)
端到端延迟(毫秒)210480(network + compute)120
Top‑1 准确率(基准)71 %78 %84 %
个性化提升(相对于通用的 Δ)+3 %+9 %
每次查询传输的数据(KB)01500(full model)≈30

关键要点

  • 延迟 大幅下降,因为边缘 SLM 负责大部分 token 生成,仅在需要时才请求云端 logits。
  • 性能 超越两端的极限;云端 LLM 注入世界知识,而边缘 SLM 注入用户特定上下文。
  • 隐私 得到保障——没有原始用户文本离开设备;仅发送压缩的 logits(≈30 KB)。

实际意义

  • 语音助理和聊天机器人 能在普通硬件上在 <150 ms 内回答个性化查询,为离线优先的体验打开了大门。
  • 企业 SaaS 可以将专有的 LLM 权重保存在安全服务器上,同时向员工设备提供低延迟、定制化的建议。
  • 边缘 AI 开发者 获得了可复用的 LoRA‑基管道,能够在无需完整模型重新训练的情况下快速将 SLM 适配到新硬件。
  • 网络受限场景(例如农村物联网、机上娱乐)受益于回退至边缘模式,即使在连接不稳定的情况下也能保证服务连续性。

限制与未来工作

  • 融合权重 目前在每个应用中是静态的;动态、上下文感知的权重有望进一步提升质量。
  • 该方法假设存在可靠、低延迟的上行链路用于 logits 交换;极端带宽限制可能迫使使用纯边缘模式,从而降低云端知识的收益。
  • 实验聚焦于以英语为中心的基准;多语言或多模态的扩展仍有待探索。
  • logits 通道的安全性尚未深入分析——未来工作应加强防御,防止推断攻击从 logits 重建用户输入。

作者

  • Chunlin Tian
  • Kahou Tam
  • Yebo Wu
  • Shuaihang Zhong
  • Li Li
  • Nicholas D. Lane
  • Chengzhong Xu

论文信息

  • arXiv ID: 2602.14302v1
  • 分类: cs.DC, cs.LG
  • 发表时间: 2026年2月15日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »