[Paper] 基于多模态风格迁移的 Prompt 调优用于高效联邦领域泛化

发布: (2026年1月10日 GMT+8 01:14)
7 min read
原文: arXiv

Source: arXiv - 2601.05955v1

Overview

一个名为 FaST‑PT 的新联邦学习框架解决了当许多边缘设备(或“客户端”)协同训练模型且必须在未见过的数据源上工作时长期存在的域偏移问题。通过将轻量级多模态风格迁移与巧妙的提示调优方案相结合,作者显著降低了通信成本,同时仍实现了跨域的最先进泛化。

关键贡献

  • Multi‑Modal Style Transfer (MST) – 一种轻量级、文本引导的图像嵌入增强方法,可在不传输额外图像的情况下扩展有效的训练分布。
  • Dual‑Prompt Architecture – 将提示分为 global(从所有客户端学习)和 domain(捕捉客户端特定特征)两个组件。
  • Domain‑aware Prompt Generation (DPG) – 运行时模块,根据每个样本选择全局提示和领域提示的合适组合,实现对新出现、未见过的领域的即时适应。
  • Efficiency Gains – 整个流水线相比之前的 FDG 方法(如 FedDG‑GA、DiPrompt)使用更少的通信轮次和更低的计算开销。
  • Extensive Validation – 在四个跨域基准(PACS、DomainNet 等)上的实验显示出一致的精度提升,消融研究也验证了每个设计选择的有效性。

方法论

  1. 通过 MST 的局部特征增强

    • 每个客户端从冻结的视觉‑语言骨干网络(例如 CLIP)中提取图像嵌入。
    • 一个轻量级的风格迁移网络,以文本描述(例如 “photo”、 “sketch”)为条件,对这些嵌入进行扰动,以模拟其他域的视觉风格。
    • 由于只交换嵌入(而非原始像素),带宽使用保持在最低水平。
  2. 提示分解

    • 全局提示:从聚合的、经过风格增强的嵌入中中心学习;编码应在任何域中都成立的知识。
    • 域提示:在本地保留;捕获客户端自身数据分布的细微差别(相机类型、光照等)。
  3. 域感知提示生成 (DPG)

    • 对于每个输入样本,DPG 预测一个加权向量,用于混合全局提示和域提示。
    • 混合后的提示随后注入下游分类器(或解码器),实现对推理步骤的“个性化”,且无需额外模型参数。
  4. 训练循环

    • 客户端在其增强的嵌入和域提示上执行少量本地 SGD 步骤。
    • 每轮仅将全局提示和一小部分 MST 参数上传至服务器。
    • 服务器对全局提示进行平均(标准联邦平均),并重新分发更新后的版本。

结果与发现

数据集先前 SOTA (FedDG‑GA)FaST‑PT (我们的)相对 ↑
PACS78.3 %84.1 %+5.8 %
DomainNet (Art)62.7 %69.4 %+6.7 %
Office‑Home71.5 %77.2 %+5.7 %
VLCS75.0 %80.3 %+5.3 %
  • 通信:与 DiPrompt 相比,FaST‑PT 需要约 30 % 更少的轮次即可收敛。
  • 计算:MST 模块每个客户端增加的计算量 <0.5 GFLOPs, 在现代边缘 GPU/NPU 上可忽略不计。
  • 消融实验:移除 DPG 会导致准确率下降约 3 %;禁用 MST(即不进行风格增强)会使性能下降约 4 %,这表明两者都是必不可少的。

Source:

实际意义

  • 边缘 AI 部署 – 企业可以在一批智能手机、摄像头或物联网传感器上训练同一个视觉模型,同时保证它在全新环境(例如新的店面布局)中也能正常工作,而无需重新收集数据。
  • 降低带宽成本 – 由于只交换紧凑的提示和嵌入层级的风格参数,即使在低速网络上,联邦更新也变得可行。
  • 即插即用兼容性 – FaST‑PT 可以在任何预训练的视觉‑语言骨干网络(CLIP、BLIP 等)之上运行,因此现有流水线只需最少的代码修改即可采用。
  • 快速原型开发 – DPG 模块可以作为 API 暴露,依据运行时元数据(设备类型、GPS 等)动态选择提示,实现能够即时自适应的“智能”推理。

限制与未来工作

  • 文本监督依赖 – MST 依赖精心设计的文本风格提示;噪声或缺失的字幕可能会降低增强质量。
  • 可扩展至数百个客户端 – 实验最多只到约 20 个客户端;作者指出当客户端数量激增时,提示聚合可能面临挑战。
  • 域提示存储 – 每个客户端必须保留自己的域提示,这在超受限设备上可能成为内存问题。

未来方向 建议包括:

  1. 通过大型语言模型自动生成风格提示。
  2. 针对海量客户端的分层提示聚合。
  3. 将该方法扩展到非视觉模态(音频、传感器数据)。

作者

  • Yuliang Chen
  • Xi Lin
  • Jun Wu
  • Xiangrui Cai
  • Qiaolun Zhang
  • Xichun Fan
  • Jiapeng Xu
  • Xiu Su

论文信息

  • arXiv ID: 2601.05955v1
  • 分类: cs.DC
  • 发表时间: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »