Holo3：突破计算机使用前沿

发布: 1个月前 (2026年4月2日 GMT+8 00:36)

6 分钟阅读

Source: Hugging Face Blog

我们很自豪地推出 Holo3，这是我们对自主企业愿景的最新演进。凭借在 78.85 % on the OSWorld‑Verified benchmark 中取得的成绩，Holo3‑122B‑A10B 在业界领先的桌面计算使用基准上树立了新的技术水平。

Holo3 不仅是基准领跑者；它还专为生产环境而打造。基于我们的 agentic flywheel 构建，它已被训练在合成企业环境中执行真实工作流。这不仅确保 Holo3 在当今业务场景中表现出色，也为未来我们的代理能够自主导航几乎任何数字化场景奠定了基础。

最重要的是，Holo3 只使用 10 B active parameters（122 B 总计），成本仅为 GPT 5.4 或 Opus 4.6 等大规模专有模型的一小部分。所有模型均可通过我们的 Inference API 获取。Holo3‑35B‑A3B 权重已在 Hugging Face 上以 Apache 2 许可证公开，并可通过我们的推理 API 免费层自由访问。

代理学习飞轮

使 Holo3 与众不同的是其专门的训练管线——一个持续反馈循环，旨在强化两个核心的代理支柱：感知和决策。

我们的训练飞轮通过带注释的示例教会模型执行特定任务，同时在几乎无限多样的用户界面上培养通用技能。该过程包括三个关键组成部分：

合成导航数据 – 使用人工编写和生成的指令，我们创建特定情境的导航示例。
域外增强 – 我们以编程方式扩展情境并增强数据，以确保 Holo3 能应对意外情况。
精选强化学习 – 每个数据样本都经过精心挑选，并通过利用高级数据过滤和强化学习的管线进行摄取，以最大化性能。

除了原始分数外，OSWorld 的结果作为我们学习飞轮的决定性概念验证。为了验证其在真实商业应用中的可转移性，我们创建了 合成环境工厂。

合成环境工厂与 H 企业基准

该专有工厂再现企业系统的真实情况，是 Holo3 诞生的训练场之一。我们的环境由编码代理自动构建，这些代理根据场景规范从头编写网站，生成难度各异、可验证的任务，并通过验证脚本进行端到端验证。

为了衡量真实世界的准备度，我们还设计了 H 企业基准，这是一套专用评估套件，包含 486 项多步骤真实任务，覆盖四大类别：

电子商务
商业软件
协作
多应用设置

该基准覆盖完整的复杂度范围：从聚焦的单应用任务到长时程的多应用工作流，模拟实际工作方式。在更高难度的层级（多应用）中，任务要求代理同时在多个系统之间协调信息——例如，从 PDF 中获取设备价格，将其与每位员工的剩余预算进行交叉比对，并自主向每个人发送个性化的批准或拒绝邮件。这类任务需要精确计算、文档解析以及在多个应用之间持续的多步骤推理，且不能丢失状态或意图。

示例合成环境

合成环境示例

基准结果

在下表中，Holo3 在单应用基准上超越了竞争对手。Holo3 与基础 Qwen 3.5 模型之间的性能差异体现了我们代理学习飞轮的影响。通过在保持相同本地化和落地标准的前提下，实现比参数规模显著更大的模型更高的成功率，Holo3 展示了这种专门训练的真正价值。

基准比较图表

通往通用代理

Holo3 是一个里程碑，但它不是终点。通过构建一个能够在客户的数字平台中观察、推理和行动的系统，我们正在将 Autonomous Enterprise（自主企业）变为现实。

随着我们的 Synthetic Environment Factory（合成环境工厂）不断演进，我们的代理正在学习处理日益复杂的任务。虽然 Holo3 目前已经掌握了界面，但我们已经在研发下一个前沿：Adaptive Agency（自适应代理），在这里我们的模型不仅会使用已知工具，还会自主学习实时导航全新、定制的企业软件。

Holo3：突破计算机使用前沿

代理学习飞轮

合成环境工厂与 H 企业基准

示例合成环境

基准结果

通往通用代理

相关文章

你的 AI 没有坏，它只是没有神经系统。

停止使用精细角色设定：研究表明它们会降低Claude代码输出

通过 agent skills 弥合知识差距

通过代理技能弥合知识差距