Holo3:突破计算机使用前沿
Source: Hugging Face Blog
我们很自豪地推出 Holo3,这是我们对自主企业愿景的最新演进。凭借在 78.85 % on the OSWorld‑Verified benchmark 中取得的成绩,Holo3‑122B‑A10B 在业界领先的桌面计算使用基准上树立了新的技术水平。
Holo3 不仅是基准领跑者;它还专为生产环境而打造。基于我们的 agentic flywheel 构建,它已被训练在合成企业环境中执行真实工作流。这不仅确保 Holo3 在当今业务场景中表现出色,也为未来我们的代理能够自主导航几乎任何数字化场景奠定了基础。
最重要的是,Holo3 只使用 10 B active parameters(122 B 总计),成本仅为 GPT 5.4 或 Opus 4.6 等大规模专有模型的一小部分。所有模型均可通过我们的 Inference API 获取。Holo3‑35B‑A3B 权重已在 Hugging Face 上以 Apache 2 许可证公开,并可通过我们的推理 API 免费层自由访问。
代理学习飞轮
使 Holo3 与众不同的是其专门的训练管线——一个持续反馈循环,旨在强化两个核心的代理支柱:感知和决策。
我们的训练飞轮通过带注释的示例教会模型执行特定任务,同时在几乎无限多样的用户界面上培养通用技能。该过程包括三个关键组成部分:
- 合成导航数据 – 使用人工编写和生成的指令,我们创建特定情境的导航示例。
- 域外增强 – 我们以编程方式扩展情境并增强数据,以确保 Holo3 能应对意外情况。
- 精选强化学习 – 每个数据样本都经过精心挑选,并通过利用高级数据过滤和强化学习的管线进行摄取,以最大化性能。
除了原始分数外,OSWorld 的结果作为我们学习飞轮的决定性概念验证。为了验证其在真实商业应用中的可转移性,我们创建了 合成环境工厂。
合成环境工厂与 H 企业基准
该专有工厂再现企业系统的真实情况,是 Holo3 诞生的训练场之一。我们的环境由编码代理自动构建,这些代理根据场景规范从头编写网站,生成难度各异、可验证的任务,并通过验证脚本进行端到端验证。
为了衡量真实世界的准备度,我们还设计了 H 企业基准,这是一套专用评估套件,包含 486 项多步骤真实任务,覆盖四大类别:
- 电子商务
- 商业软件
- 协作
- 多应用设置
该基准覆盖完整的复杂度范围:从聚焦的单应用任务到长时程的多应用工作流,模拟实际工作方式。在更高难度的层级(多应用)中,任务要求代理同时在多个系统之间协调信息——例如,从 PDF 中获取设备价格,将其与每位员工的剩余预算进行交叉比对,并自主向每个人发送个性化的批准或拒绝邮件。这类任务需要精确计算、文档解析以及在多个应用之间持续的多步骤推理,且不能丢失状态或意图。
示例合成环境

基准结果
在下表中,Holo3 在单应用基准上超越了竞争对手。Holo3 与基础 Qwen 3.5 模型之间的性能差异体现了我们代理学习飞轮的影响。通过在保持相同本地化和落地标准的前提下,实现比参数规模显著更大的模型更高的成功率,Holo3 展示了这种专门训练的真正价值。

通往通用代理
Holo3 是一个里程碑,但它不是终点。通过构建一个能够在客户的数字平台中观察、推理和行动的系统,我们正在将 Autonomous Enterprise(自主企业)变为现实。
随着我们的 Synthetic Environment Factory(合成环境工厂)不断演进,我们的代理正在学习处理日益复杂的任务。虽然 Holo3 目前已经掌握了界面,但我们已经在研发下一个前沿:Adaptive Agency(自适应代理),在这里我们的模型不仅会使用已知工具,还会自主学习实时导航全新、定制的企业软件。