[Paper] MUSE：多租户模型服务与无缝模型更新

发布: 3天前 (2026年2月12日 GMT+8 17:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.11776v1

概览

MUSE（多租户模型服务）解决了“Score‑as‑a‑Service”平台中的一个隐藏痛点：每次对欺诈检测模型进行重新训练时，分数分布会发生变化，迫使每个客户手动重新调节决策阈值。作者提出了一个服务框架，将模型分数与客户特定阈值解耦，使模型更新可以在几分钟内完成，而不是几周，并且仍然能够在同一基础设施上支持数百个租户。

关键贡献

两级分数转换，将任何新训练模型的原始分数映射到稳定的参考分布，使客户端阈值在更新后仍然有效。
基于意图的动态路由，允许多个租户共享同一底层模型实例，在不牺牲隔离性的前提下最大化 GPU/CPU 利用率。
生产级部署 在 Feedzai 处理 >1 k 事件/秒和 >55 B 事件/年，覆盖数十个租户，具备亚毫秒延迟和高可用性保证。
运营影响研究 显示模型部署前置时间从数周缩短至数分钟，并估计可减少数百万美元的欺诈相关损失。

方法论

参考分布定义 – 团队选择一个“规范”的分数分布（例如，经过校准的逻辑回归输出），所有客户都同意将其作为基准。
两级映射
- Level 1：新训练的模型生成原始分数。
- Level 2：轻量级、针对每个模型的转换（通常是单调的分段线性函数）将这些原始分数重新塑形，以匹配参考分布。由于映射是单调的，预测的排序保持不变，从而保留模型性能。
基于意图的路由层 – 进入的事件携带租户标识符和可选的“意图”元数据（例如，欺诈类型）。路由器将请求转发到相应的共享模型实例，并在已转换的分数上应用该租户存储的阈值。
持续部署流水线 – 新模型会自动注册，转换参数在小型验证集上重新计算，更新后的模型可热切换，且无需停机。

该方法避免了任何客户端代码的更改；阈值保持相对于参考分布的校准，而参考分布始终不变。

结果与发现

指标	MUSE 前	MUSE 后
模型更新延迟	~2 周（手动重新校准）	~5 分钟（自动热‑swap）
平均每事件延迟	3.2 ms	2.8 ms
吞吐量	≈ 800 eps	≈ 1,200 eps
欺诈损失降低（估计）	—	$3–5 M/yr
阈值更新的运维工作量	≈ 200 hrs/yr	≈ 10 hrs/yr

稳定的参考分布消除了每次模型重新训练后对每个租户阈值进行重新调优的需求，而共享模型架构保持了低资源使用。系统在整整一年的生产流量中实现了 >99.99 % 的可用性。

实际影响

更快的模型创新 – 数据科学团队可以每日迭代，而无需担心客户端更新的连锁反应。
降低运营成本 – 自动化阈值重新校准步骤可减少人工质检和支持工单。
提升欺诈韧性 – 快速发布更新模型意味着平台能够在近实时响应新出现的攻击模式，直接转化为更低的财务损失。
可扩展的 SaaS 架构 – 基于意图的路由和分数转换模式可复用于任何多租户机器学习服务（例如信用评分、推荐引擎），其下游业务逻辑依赖于校准后的分数。
简化客户端集成 – 客户端保留现有的阈值逻辑，只需将 API 端点指向 MUSE 网关，即可降低集成摩擦。

限制与未来工作

单调映射假设 – 当前的转换仅限于单调函数；不支持非单调校准（例如处理多模态分数分布）。
参考分布的选择 – 为所有租户挑选一个通用的参考分布可能很困难，尤其是当租户的风险偏好差异极大时。
模型多样性 – MUSE 假设单一模型可以服务多个租户；高度专业化的模型可能仍需单独实例，从而削弱共享的收益。
未来方向 – 作者建议探索自适应、租户特定的转换层（例如小型神经网络），并将框架扩展到二分类之外的多分类或回归任务。

结论：MUSE 通过巧妙的分数归一化层和智能路由，展示了多租户机器学习平台可以消除一个主要的运营瓶颈，实现更快、更廉价且更可靠的模型更新——这一方法值得任何面向 SaaS 的机器学习团队考虑。

作者

Cláudio Correia
Alberto E. A. Ferreira
Lucas Martins
Miguel P. Bento
Sofia Guerreiro
Ricardo Ribeiro Pereira
Ana Sofia Gomes
Jacopo Bono
Hugo Ferreira
Pedro Bizarro

论文信息

arXiv ID: 2602.11776v1
分类: cs.LG, cs.DC
发表时间: 2026年2月12日
PDF: 下载 PDF

[Paper] MUSE：多租户模型服务与无缝模型更新

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用