OpenAI 将其 Responses API 升级,支持 agent skills 和完整的 terminal shell
Source: VentureBeat
介绍
直到最近,构建 AI 代理就像给一名记忆只有三十秒的长跑运动员进行训练。
你可以为模型提供工具和指令,但在进行几十次交互——用类比来说,就是在跑道上跑了好几圈——后,它们不可避免地会丢失上下文并开始产生幻觉。
OpenAI 最近对其 Responses API(让开发者能够通过一次调用访问网页搜索、文件搜索等多种代理工具的接口)的更新,标志着受限代理时代的逐渐结束。
本次公告包含三项主要升级:
- 服务器端压缩
- 托管的 Shell 容器
- 一个新的 “Skills” 标准,用于代理
这些改进共同为代理提供了永久的工作台、终端以及不会衰减的记忆,使它们能够发展为可靠的、长期的数字工作者。
Technology: Overcoming “Context Amnesia”
自动化代理面临的最大技术障碍一直是长期任务的杂乱。每当代理调用工具或运行脚本时,对话历史就会增长。最终模型会触及其 token 限制,迫使开发者截断历史——往往会删除代理完成任务所需的关键推理。
Server‑side Compaction
OpenAI 的答案是 Server‑side Compaction。与简单截断不同,压缩让代理能够运行数小时甚至数天。来自电商平台 Triple Whale 的早期数据表明,这在稳定性方面是一次突破:他们的代理 Moby 成功完成了一个涉及 5 million tokens 和 150 tool calls 的会话,且准确率没有下降。
在实际应用中,模型可以 summarize its own past actions 成为压缩状态,保留关键上下文的同时清除噪音。这将模型从一个健忘的助理转变为一个持久的系统进程。
Source: …
托管云沙盒
引入 Shell Tool 使 OpenAI 进入托管计算的领域。开发者现在可以选择 container_auto,它会部署一个由 OpenAI 托管的 Debian 12 环境。
托管 Shell 提供的功能
-
原生执行环境
- Python 3.11
- Node.js 22
- Java 17
- Go 1.23
- Ruby 3.1
-
持久化存储 通过
/mnt/data——代理可以生成、保存并下载制品。 -
网络功能 ——代理可以访问互联网以安装库或与第三方 API 交互。
托管 Shell 及其持久化的 /mnt/data 存储为代理提供了一个托管环境,能够使用 Python 或 Java 执行复杂的数据转换,而无需团队为每个 AI 项目构建和维护自定义的 ETL(抽取、转换、加载)中间件。通过利用这些容器,数据工程师可以实现高性能的处理任务,同时将管理专属基础设施的开销降至最低。OpenAI 的信息很明确:“Give us the instructions; we’ll provide the computer.”
OpenAI的技能 vs. Anthropic的技能
两家公司都采用了相似的文件结构——SKILL.md 清单并使用 YAML 前置块——但其底层策略却不同。
OpenAI的做法
- 可编程基底,旨在提升开发者的迭代速度。
- 将 shell、记忆体和技能打包进 Responses API,提供“即插即用”的体验。
- 企业影响:Glean 报告称,使用 OpenAI 的 Skills 框架后,工具准确率从 73 % 提升至 85 %。
Anthropic的做法
- 开放标准(
agentskills.io),旨在实现可移植性。 - 为 Claude 构建的技能可以迁移到 VS Code、Cursor 或任何采用该规范的平台。
实际案例
开源 AI 代理 OpenClaw 采用了 SKILL.md 清单,继承了最初为 Claude 设计的大量过程知识。这种兼容性推动了社区在 ClawHub 上的“技能热潮”,该平台目前已托管 超过 3,000 个社区构建的扩展,涵盖智能家居集成、复杂企业工作流自动化等多种场景。
由于 OpenClaw 支持多种模型——包括 OpenAI 的 GPT‑5 系列和本地 Llama 实例——开发者只需编写一次技能,即可在异构的代理生态中部署。对技术决策者而言,这一开放标准正成为业界外部化和共享 代理知识 的首选方式,超越了专有提示,走向可检查、可互操作的共享基础设施。
关键架构差异
| 功能 | OpenAI | Anthropic |
|---|---|---|
| 状态管理 | 服务器端压缩(Server‑side Compaction)保持压缩后的活动状态,以支持长时会话。 | 渐进式披露(Progressive Disclosure):模型最初仅看到技能名称/描述,完整细节按需加载。 |
| 记忆体影响 | 对整个会话进行压缩,降低 token 使用量,同时保留关键上下文。 | 仅在需要时加载细节,防止模型工作记忆被淹没,能够支持大规模技能库(品牌指南、法律清单、代码模板等)。 |
对企业技术决策者的影响
- 可扩展性: 服务器端压缩和托管容器使代理能够在较长时间内运行,而无需手动管理上下文。
- 运营简化: 托管的 shell 消除对自定义沙箱基础设施的需求,降低 DevOps 工作负担。
- 可移植性与生态系统增长: Anthropic 的开放 Skills 标准鼓励可重用、版本化的资产,可在模型和平台之间共享,促进活跃的社区市场。
- 战略选择: 组织必须决定是优先选择紧密集成的即插即用堆栈(OpenAI),还是基于可移植、供应商中立的技能生态系统(Anthropic),以符合其长期 AI 战略。
Engineers – Rapid Deployment & Fine‑Tuning
- Server‑side Compaction + Skills = massive productivity boost.
- No need to build custom state‑management for every agent run; built‑in compaction handles multi‑hour tasks.
- Skills act as “packaged IP”: fine‑tuned or specialized procedural knowledge can be modularised and reused across internal projects.
工程师 – 快速部署与微调
- 服务器端压缩 + 技能 = 大幅提升生产力。
- 无需为每次代理运行构建自定义状态管理;内置压缩可处理多小时任务。
- 技能 充当“打包的知识产权”:经过微调或专门化的过程知识可以模块化,并在内部项目中重复使用。
从 “Chat Box” 到生产级工作流
- OpenAI 的公告结束了定制基础设施的时代。
- 在历史上,编排一个代理需要:
- 用于长对话的自定义状态管理逻辑。
- 安全的、短暂的沙箱来执行代码。
- 现在的关注点转向:
- 哪些技能被授权给哪些用户?
- 如何审计托管文件系统中生成的工件?
OpenAI 提供 engine 和 chassis;编排器现在定义道路规则。
安全运营(SecOps)视角
- 为 AI 模型提供 shell 和网络访问是一项高风险的演进。
- Domain Secrets 和 Org Allowlists 提供深度防御:代理可以调用 API,而无需在模型上下文中暴露原始凭证。
- 随着 “Skills” 简化部署,SecOps 必须留意可能导致以下问题的 malicious skills:
- Prompt‑injection 漏洞。
- 未授权的数据泄露路径。
企业应如何决定?
| Criteria | OpenAI | Anthropic |
|---|---|---|
| Integrated, high‑velocity environment for long‑running autonomous work | ✅ | ❌ |
| Model‑agnostic portability & open‑ecosystem standard | ❌ | ✅ |
Bottom Line
- OpenAI 不再仅仅提供 大脑(模型);它还提供 办公室(容器)、记忆(压缩)以及 培训手册(技能)。
- 这些公告标志着 AI 从聊天框向系统架构迁移,将 “prompt spaghetti” 转变为可维护、版本化和可扩展的业务工作流。