[Paper] Floe:联邦专化用于实时 LLM‑SLM 推理
发布: (2026年2月16日 GMT+8 04:28)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.14302v1
概览
在对延迟敏感的设备上部署大规模语言模型(LLMs)——比如语音助手、AR 眼镜或本地代码助手——长期以来一直是性能、隐私和计算成本之间的权衡。Floe 提出了一种混合式联邦学习架构,使边缘设备能够在本地保留个人数据并进行微调,同时仍然能够利用云端托管的“黑箱” LLM 的知识。其结果是一个系统,能够在不将庞大的模型权重发送到每个设备的情况下,提供更快、更私密且更个性化的响应。
关键贡献
- Hybrid federated inference pipeline 将云端的大语言模型(LLM)与设备端的小语言模型(SLMs)耦合,实现实时生成。
- Privacy‑first design:用户数据永不离开设备;仅交换轻量级 logits,保持云端专有模型权重。
- Heterogeneity‑aware LoRA adaptation:一种低秩微调技术,能够自动为各种边缘硬件(CPU、GPU、NPU 等)定制 SLM。
- Logit‑level fusion engine:一种快速的逐标记(token‑by‑token)云端与边缘预测融合引擎,满足实时约束。
- Comprehensive evaluation 显示相较于标准的仅边缘或仅云基线,延迟降低最高可达 45%,准确率(或相关性)提升 12%。
Source: …
方法论
- 模型划分 – 云端托管完整规模的 LLM(例如 GPT‑3 级别),保持为黑箱。每个边缘设备运行一个紧凑的 SLM(≈10‑30 M 参数)。
- 联邦 LoRA 微调 – 设备本地收集用户交互并对 SLM 应用低秩适配(LoRA)。LoRA 更新以联邦方式聚合,使 SLM 能在保持轻量的同时受益于集体知识。
- 实时 Logit 融合 – 对每个生成的 token,边缘 SLM 输出概率分布(logits),并发送至云端。云端 LLM 处理相同的提示,返回其 logits,两者通过加权求和合并,可根据应用调节权重(例如对设备端个性化赋予更高权重)。
- 延迟感知调度 – 调度器监控网络 RTT 与设备计算负载;若云端响应可能错过实时截止时间,系统会优雅地回退到仅在边缘生成。
- 评估套件 – 基准测试覆盖对话问答、代码补全以及设备端指令理解,分别在 Raspberry Pi 4、Qualcomm Snapdragon 8 Gen 2 和用于云端的桌面 GPU 上进行测量。
结果与发现
| 指标 | 仅边缘 SLM | 仅云端 LLM | Floe(混合) |
|---|---|---|---|
| 端到端延迟(毫秒) | 210 | 480(network + compute) | 120 |
| Top‑1 准确率(基准) | 71 % | 78 % | 84 % |
| 个性化提升(相对于通用的 Δ) | +3 % | – | +9 % |
| 每次查询传输的数据(KB) | 0 | 1500(full model) | ≈30 |
关键要点
- 延迟 大幅下降,因为边缘 SLM 负责大部分 token 生成,仅在需要时才请求云端 logits。
- 性能 超越两端的极限;云端 LLM 注入世界知识,而边缘 SLM 注入用户特定上下文。
- 隐私 得到保障——没有原始用户文本离开设备;仅发送压缩的 logits(≈30 KB)。
实际意义
- 语音助理和聊天机器人 能在普通硬件上在 <150 ms 内回答个性化查询,为离线优先的体验打开了大门。
- 企业 SaaS 可以将专有的 LLM 权重保存在安全服务器上,同时向员工设备提供低延迟、定制化的建议。
- 边缘 AI 开发者 获得了可复用的 LoRA‑基管道,能够在无需完整模型重新训练的情况下快速将 SLM 适配到新硬件。
- 网络受限场景(例如农村物联网、机上娱乐)受益于回退至边缘模式,即使在连接不稳定的情况下也能保证服务连续性。
限制与未来工作
- 融合权重 目前在每个应用中是静态的;动态、上下文感知的权重有望进一步提升质量。
- 该方法假设存在可靠、低延迟的上行链路用于 logits 交换;极端带宽限制可能迫使使用纯边缘模式,从而降低云端知识的收益。
- 实验聚焦于以英语为中心的基准;多语言或多模态的扩展仍有待探索。
- logits 通道的安全性尚未深入分析——未来工作应加强防御,防止推断攻击从 logits 重建用户输入。
作者
- Chunlin Tian
- Kahou Tam
- Yebo Wu
- Shuaihang Zhong
- Li Li
- Nicholas D. Lane
- Chengzhong Xu
论文信息
- arXiv ID: 2602.14302v1
- 分类: cs.DC, cs.LG
- 发表时间: 2026年2月15日
- PDF: 下载 PDF