[Paper] Floe：联邦专化用于实时 LLM‑SLM 推理

发布: 3天前 (2026年2月16日 GMT+8 04:28)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.14302v1

概览

在对延迟敏感的设备上部署大规模语言模型（LLMs）——比如语音助手、AR 眼镜或本地代码助手——长期以来一直是性能、隐私和计算成本之间的权衡。Floe 提出了一种混合式联邦学习架构，使边缘设备能够在本地保留个人数据并进行微调，同时仍然能够利用云端托管的“黑箱” LLM 的知识。其结果是一个系统，能够在不将庞大的模型权重发送到每个设备的情况下，提供更快、更私密且更个性化的响应。

关键贡献

Hybrid federated inference pipeline 将云端的大语言模型（LLM）与设备端的小语言模型（SLMs）耦合，实现实时生成。
Privacy‑first design：用户数据永不离开设备；仅交换轻量级 logits，保持云端专有模型权重。
Heterogeneity‑aware LoRA adaptation：一种低秩微调技术，能够自动为各种边缘硬件（CPU、GPU、NPU 等）定制 SLM。
Logit‑level fusion engine：一种快速的逐标记（token‑by‑token）云端与边缘预测融合引擎，满足实时约束。
Comprehensive evaluation 显示相较于标准的仅边缘或仅云基线，延迟降低最高可达 45%，准确率（或相关性）提升 12%。

Source: …

方法论

模型划分 – 云端托管完整规模的 LLM（例如 GPT‑3 级别），保持为黑箱。每个边缘设备运行一个紧凑的 SLM（≈10‑30 M 参数）。
联邦 LoRA 微调 – 设备本地收集用户交互并对 SLM 应用低秩适配（LoRA）。LoRA 更新以联邦方式聚合，使 SLM 能在保持轻量的同时受益于集体知识。
实时 Logit 融合 – 对每个生成的 token，边缘 SLM 输出概率分布（logits），并发送至云端。云端 LLM 处理相同的提示，返回其 logits，两者通过加权求和合并，可根据应用调节权重（例如对设备端个性化赋予更高权重）。
延迟感知调度 – 调度器监控网络 RTT 与设备计算负载；若云端响应可能错过实时截止时间，系统会优雅地回退到仅在边缘生成。
评估套件 – 基准测试覆盖对话问答、代码补全以及设备端指令理解，分别在 Raspberry Pi 4、Qualcomm Snapdragon 8 Gen 2 和用于云端的桌面 GPU 上进行测量。

结果与发现

指标	仅边缘 SLM	仅云端 LLM	Floe（混合）
端到端延迟（毫秒）	210	480（network + compute）	120
Top‑1 准确率（基准）	71 %	78 %	84 %
个性化提升（相对于通用的 Δ）	+3 %	–	+9 %
每次查询传输的数据（KB）	0	1500（full model）	≈30

关键要点

延迟大幅下降，因为边缘 SLM 负责大部分 token 生成，仅在需要时才请求云端 logits。
性能超越两端的极限；云端 LLM 注入世界知识，而边缘 SLM 注入用户特定上下文。
隐私得到保障——没有原始用户文本离开设备；仅发送压缩的 logits（≈30 KB）。

实际意义

语音助理和聊天机器人 能在普通硬件上在 <150 ms 内回答个性化查询，为离线优先的体验打开了大门。
企业 SaaS 可以将专有的 LLM 权重保存在安全服务器上，同时向员工设备提供低延迟、定制化的建议。
边缘 AI 开发者 获得了可复用的 LoRA‑基管道，能够在无需完整模型重新训练的情况下快速将 SLM 适配到新硬件。
网络受限场景（例如农村物联网、机上娱乐）受益于回退至边缘模式，即使在连接不稳定的情况下也能保证服务连续性。

限制与未来工作

融合权重 目前在每个应用中是静态的；动态、上下文感知的权重有望进一步提升质量。
该方法假设存在可靠、低延迟的上行链路用于 logits 交换；极端带宽限制可能迫使使用纯边缘模式，从而降低云端知识的收益。
实验聚焦于以英语为中心的基准；多语言或多模态的扩展仍有待探索。
logits 通道的安全性尚未深入分析——未来工作应加强防御，防止推断攻击从 logits 重建用户输入。

作者

Chunlin Tian
Kahou Tam
Yebo Wu
Shuaihang Zhong
Li Li
Nicholas D. Lane
Chengzhong Xu

论文信息

arXiv ID: 2602.14302v1
分类: cs.DC, cs.LG
发表时间: 2026年2月15日
PDF: 下载 PDF

[Paper] Floe：联邦专化用于实时 LLM‑SLM 推理

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 通过任务复杂性操作化表层对齐假设

[Paper] 感知类人Parkour：通过Motion Matching串联动态人类技能

[论文] 通过 D-Optimal 统计稳定高维仿真代理模型的测试时适应

[论文] 使用强化学习解决具有未知可行性的参数鲁棒规避问题