[Paper] OS-Symphony:用于稳健且通用的计算机使用代理的整体框架
发布: (2026年1月13日 GMT+8 01:55)
7 min read
原文: arXiv
Source: arXiv - 2601.07779v1
Overview
本文介绍了 OS‑Symphony,一个全新的端到端框架,使 AI 代理能够可靠地“使用计算机”完成复杂的多步骤任务。通过将具备记忆增强的 “Reflection‑Memory Agent” 与基于浏览器的 “Multimodal Searcher” 相结合,该系统能够在长时间跨度内跟踪视觉上下文,并实时获取可视化教程——这两项能力在现有的计算机使用代理中一直缺失。
关键贡献
- Reflection‑Memory Agent – 引入里程碑驱动的长期记忆,使代理能够自我纠正执行轨迹,显著降低因视觉上下文丢失导致的错误。
- Versatile Tool Agents – 一套插件工具,其中以 Multimodal Searcher 为亮点,它遵循“看‑行动”循环来浏览网页、获取视觉教程,并将其与当前任务对齐。
- Holistic Orchestrator – 一个中心控制器,能够无缝协调记忆代理和工具代理,实现稳健、适应性的工作流。
- State‑of‑the‑art performance – 在三个在线基准上取得新最高分(例如在 OSWorld 上达到 65.84 %),覆盖多种模型规模。
- Generalist design – 该框架与模型无关,可与任何底层视觉语言模型(VLM)配合使用,便于在现有流水线中采用。
方法论
-
Orchestrator Layer
- 充当调度器,根据任务进度决定何时调用 Reflection‑Memory Agent 与 Tool Agents。
-
Reflection‑Memory Agent
- Milestones(里程碑):将任务拆分为高级检查点(例如 “打开邮件”、 “附加文件”)。
- Long‑Term Memory Store(长期记忆存储):每完成一个里程碑后,代理保存一个紧凑的视觉‑语义快照(图像 + 标题 + 隐藏状态)。
- Self‑Reflection Loop(自我反思循环):在继续之前,代理将当前视觉上下文与已存储的快照进行比较;若出现不匹配,则触发纠正子计划。
-
Versatile Tool Agents
- Multimodal Searcher (SeeAct):
- See(观察):捕获当前屏幕,提取视觉线索。
- Act(行动):构造多模态查询(文本 + 图像),并将其发送到浏览器沙箱。
- Retrieve(检索):解析返回的网页,提取逐步截图或 GIF,并将其作为 “visual tutorials”(视觉教程)反馈给主代理。
- 其他工具代理(例如文件系统操作器、API 调用器)遵循相同的插件模式。
- Multimodal Searcher (SeeAct):
-
Training & Fine‑Tuning
- 基础的 VLM 在合成的长时程轨迹和真实的网络搜索案例的混合数据上进行微调,促使模型学习自我反思和多模态检索行为。
结果与发现
| Benchmark | Prior SOTA | OS‑Symphony (ours) |
|---|---|---|
| OSWorld | 58.3 % | 65.84 % |
| WebArena | 71.2 % | 78.5 % |
| MiniWoB | 84.0 % | 89.3 % |
- 鲁棒性:在需要超过 10 步的任务上,错误率下降约 30 %,验证了里程碑记忆能够防止视觉上下文的“漂移”。
- 泛化能力:在未见过的领域(例如新 SaaS 仪表盘)进行评估时,多模态搜索器能够 92 % 的时间检索到相关教程,使得代理能够完成训练期间从未见过的任务。
- 可扩展性:性能提升在模型规模上保持一致——从 1.3 B 到 13 B 参数均表现出相同的增益,展示了该框架的模型无关特性。
实际影响
- 帮助台与入职自动化:公司可以部署基于 OS‑Symphony 的机器人,引导用户完成软件安装,自动从供应商文档中提取最新截图。
- RPA(机器人流程自动化)增强:传统 RPA 脚本脆弱;借助里程碑记忆和实时教程检索,代理可以在 UI 变化时自行适应,无需手动重写脚本。
- 开发者工具:IDE 扩展可以使用多模态搜索器实时获取可视化代码示例或配置截图,减少上下文切换。
- 测试与质量保证:自动化 UI 测试可受益于自我纠错,使测试代理能够从不稳定的视觉元素中恢复并继续长时间的测试套件。
- 低代码 AI 集成:由于 Orchestrator 提供了用于添加新工具代理的简洁 API,团队可以插入特定领域的实用工具(例如数据库查询执行器),而无需重新训练整个模型。
局限性与未来工作
- 浏览器沙箱依赖 – 当前的多模态搜索器依赖受控沙箱;扩展到任意浏览器可能会带来安全性和兼容性挑战。
- 内存开销:为每个里程碑存储视觉快照在极长任务中可能成本高昂;未来工作可以探索层次化摘要。
- 领域特定知识:虽然系统能够检索教程,但在缺乏公开文档的高度专业化软件上仍然表现困难。
- 用户交互:该框架假设完全自主执行;将交互式澄清循环与人类用户结合是一个开放方向。
总体而言,OS‑Symphony 将使用计算机的代理推向真实世界部署所需的鲁棒性和适应性,为渴望将 AI 驱动的自动化嵌入其产品的开发者提供了实用的蓝图。
作者
- Bowen Yang
- Kaiming Jin
- Zhenyu Wu
- Zhaoyang Liu
- Qiushi Sun
- Zehao Li
- JingJing Xie
- Zhoumianze Liu
- Fangzhi Xu
- Kanzhi Cheng
- Qingyun Li
- Yian Wang
- Yu Qiao
- Zun Wang
- Zichen Ding
论文信息
- arXiv ID: 2601.07779v1
- 分类: cs.MA, cs.AI, cs.CL, cs.CV, cs.HC
- 出版日期: 2026年1月12日
- PDF: 下载 PDF