[Paper] Safactory：可扩展的代理工厂用于可信的自主智能

发布: 4天前 (2026年5月7日 GMT+8 21:21)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06230v1

Overview

本文介绍了 Safactory，一个统一且可扩展的“代理工厂”，将仿真、数据管理和持续学习结合在一起，用于自主 AI 代理。通过将这些组件拼接成一个单一流水线，作者旨在更容易评估、改进并信任在长时间跨度内运行并与现实世界工具交互的大模型代理。

关键贡献

Parallel Simulation Platform – 生成大规模、多样化的交互轨迹并行，实现对长时程决策的高通量测试。
Trustworthy Data Platform – 存储原始轨迹，提取结构化经验，并附加来源/质量元数据，以进行系统化风险分析。
Autonomous Evolution Platform – 运行异步强化学习（RL）循环和在线策略蒸馏，将收集的经验转化为持续升级的模型。
Unified Evolutionary Pipeline – 首个将仿真、数据策划和模型演化端到端耦合的框架，支持可信代理的闭环改进。
Scalability Demonstration – 展示系统能够在异构计算集群上处理数百万个模拟回合，无需人工编排。

方法论

大规模并行仿真 – Safactory 在分布式集群上启动数千个沙盒环境（例如网页浏览器、使用工具的 API）。每个环境运行一个遵循策略并记录完整动作‑状态轨迹的自主代理。
经验提取与策划 – 原始日志由可信数据平台摄取，平台将其解析为“经验”（状态、动作、奖励、工具使用），并为每条经验打上可靠性信号标签（例如仿真保真度、安全违规情况）。
闭环学习 – 自主进化平台将策划好的经验导入强化学习训练器，进行异步更新：
- 对收集到的 on‑policy 数据执行 策略梯度 / PPO。
- 将更新后的策略蒸馏回更小、更易部署的模型。
- 安全过滤器 拒绝会提升已测风险指标的更新。
迭代反馈 – 更新后的模型会自动重新部署到仿真舰队，形成生成 → 评估 → 改进的持续循环。

整个技术栈通过轻量级任务调度器和容器化服务进行编排，能够在云服务提供商或本地集群之间便捷迁移。

Source: …

结果与发现

指标	基线（单代理流水线）	Safactory（完整流水线）
每日剧集数（≈）	10 K	2.3 M
平均任务成功率（长时程）	62 %	78 %
检测到的安全违规（每 10 K 剧集）	1.8 %	0.4 %
模型改进延迟（天）	7	1.2

吞吐量提升：并行仿真使每日数据量提升 >200×，显著加速了强化学习更新。
性能提升：在闭环中训练的代理能够解决更复杂的多步骤任务（例如多工具工作流），优于在静态数据集上训练的代理。
风险降低：可信数据平台的安全标签使演化引擎能够过滤有害的策略更新，将违规率降低约 78 %。

这些数字说明，紧密耦合的流水线既能加快学习速度，又能提升安全保障。

实际影响

加速产品开发 – 构建 AI 助手、自治机器人或使用工具的代理的公司可以在几天而非数周内完成从原型到生产的迭代。
持续合规 – 通过将安全指标嵌入数据平台，组织能够保持审计追踪，并在模型更新期间自动执行监管约束。
成本效益的扩展 – 模块化、基于容器的设计使团队能够在抢占式实例上启动额外的仿真工作者，实现高吞吐量而无需巨额资本支出。
即插即用的现有模型 – Safactory 的 API 接受任何可以包装为“代理策略”的语言模型，使得为遗留系统配备可信的演进循环变得简便。
行业标准的基础 – 统一的流水线可以成为基准套件（例如 OpenAI 的 “AgentBench”）的参考实现，并用于在企业之间共享可复现的评估数据。

限制与未来工作

仿真保真度 – 当前的沙盒环境仍然是对真实世界的近似；在部署到物理系统时，可能出现“现实漂移”。
资源异构性 – 虽然调度器能够处理混合 CPU/GPU 集群，但在极大规模（数百个 GPU）时，数据摄取层可能出现瓶颈。
安全度量设计 – 论文依赖手工构造的风险信号；学习更细致的安全表征仍是一个未解决的挑战。
对非工具使用型代理的泛化 – 该框架针对调用外部工具的代理进行优化；将其扩展到纯感知‑动作循环（例如机器人）需要额外的传感器仿真器。

作者概述的未来工作包括与真实世界测试平台的更紧密集成、通过元学习实现自动化安全度量发现，以及开源该平台以促进社区驱动的扩展。

作者

论文信息

arXiv ID: 2605.06230v1
Categories: cs.AI, cs.DC
Published: 2026年5月7日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 归一化轨迹模型

基于扩散的模型将采样分解为许多小的高斯去噪步骤——这一假设在生成被压缩到少数粗…

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

解码 imagined speech 从 non‑invasive brain recordings 是具有挑战性的，因为 imagined 数据集稀缺且难以在受试者之间进行时间对齐。

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

Conformal prediction (CP) 提供了一种无分布假设的、不依赖于特定分布的、不确定性量化方法，并具备有限样本保证。然而，将 CP 应用于图神经网络...

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择

一种用于扩展推理时推理的标准技术是 Self-Consistency，即从 LLM 中采样多个候选答案，并选择最常见的……