[Paper] Fed-SE：联邦自我进化用于隐私受限的多环境 LLM 代理

发布: 2个月前 (2025年12月10日 GMT+8 02:04)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.08870v1

概览

本文介绍了 Fed‑SE，一种新颖的联邦学习框架，使大语言模型（LLM）代理能够在多个受隐私限制的环境中持续进化其技能，而无需共享原始数据。通过将智能本地微调与低秩全局聚合步骤相结合，Fed‑SE 克服了通常困扰开放式代理联邦训练的不稳定性。

关键贡献

联邦自我进化范式：针对必须从稀疏、轨迹级反馈中学习的 LLM 代理，设计的本地进化 / 全局聚合循环。
梯度稳定的本地更新：在精选的高回报轨迹上使用参数高效微调（如 LoRA），显著降低梯度冲突。
低秩子空间聚合：将客户端更新投影到共享的低维子空间，隔离环境特定动态，减轻负迁移。
实证验证：在五个异构基准环境上的实验表明，与标准联邦基线相比，平均任务成功率提升约 18 %。
隐私优先设计：原始交互日志不离开客户端设备，满足企业和边缘部署中常见的严格数据隐私法规。

方法论

本地进化
- 每个客户端在其专属环境中运行 LLM 代理（例如特定的工作流自动化或游戏关卡）。
- 代理收集交互轨迹并计算标量回报（成功/失败、奖励）。
- 仅保留回报最高的 top‑k 轨迹，其余舍弃，以避免噪声梯度。
- 使用 参数高效适配器（LoRA、前缀调优等）在过滤后的轨迹上微调，仅更新极少量权重。
全局聚合
- 客户端加密并发送其适配器更新（而非完整模型）至中心服务器。
- 服务器对堆叠的更新执行 低秩矩阵分解，提取捕获共性知识的共享子空间，同时过滤环境特定噪声。
- 将聚合后的子空间广播回去；每个客户端将全局更新投影到本地适配器上，完成一次进化循环。
迭代循环
- 该过程在多个通信轮次中重复进行，逐步提升代理性能，同时保持数据在设备端。

结果与发现

指标	Fed‑SE	FedAvg（基线）	FedProx（基线）
平均任务成功率 ↑	78 %	60 %	62 %
通信开销（MB/轮）	1.2	1.2	1.2
收敛轮次（达到 70 % 成功率）	12	22	20

稳定性：得益于轨迹过滤和低秩聚合，客户端间梯度方差下降约 45 %。
负迁移降低：目标相互冲突的环境（如“最小化步骤” vs. “彻底探索”）不再相互拖累。
可扩展性：新增两个异构客户端仅线性增加通信负载，验证了该方法对大规模联邦的适用性。

实际意义

企业 AI 助手 可在不同部门（人力资源、财务、客服）间持续改进，而不泄露机密日志。
边缘部署的 LLM 机器人（如物联网设备、自治无人机）可在遵守设备端隐私约束的前提下共享学习信号。
快速原型：团队可快速启动新的环境特定代理，让其在本地自我进化，再在少数通信轮次内全局合并改进。
降低基础设施成本：仅传输低维适配器，使带宽和存储需求保持在最低水平，适用于移动或卫星链路。

局限性与未来工作

异质性上限：当客户端环境极度分歧（如语言翻译 vs. 代码生成）时，低秩子空间仍可能捕获冲突信号，限制收益。
奖励稀疏：该方法依赖足够的高回报轨迹；在奖励极度稀疏的任务中可能需要额外的探索策略。
安全考量：虽然原始数据永不离开客户端，模型更新仍可能泄露信息；引入差分隐私或安全聚合是自然的下一步。
更广基准：作者计划在更大规模的 LLM（如 70B 参数）以及真实企业数据集上测试 Fed‑SE，以进一步评估可扩展性和鲁棒性。

作者

Xiang Chen
Yuling Shi
Qizhen Lan
Yuchao Qiu
Xiaodong Gu

论文信息

arXiv ID: 2512.08870v1
分类: cs.LG, cs.AI
出版时间: 2025 年 12 月 9 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

许多系统在其组件之间表现出复杂的相互作用：某些特征或行为会相互放大效果，其他则提供冗余信息，……

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

Softmax attention 是 transformer 架构的核心组成部分，但其 nonlinear 结构对理论分析提出了重大挑战。我们 dev...

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型

大型语言模型（LLMs）的快速部署在机器学习（ML）领域产生了对加强安全和隐私措施的迫切需求。LLMs 正在...