Show HN: Open-Source SDK for AI 知识工作

发布: (2026年2月11日 GMT+8 01:06)
4 分钟阅读

Source: Hacker News

概览

GitHub:

大多数 AI 代理框架针对代码:编写代码、运行测试、修复错误、重复。之所以有效,是因为代码有天然的验证信号——要么可运行,要么不可运行。

Knowledge Work SDK 将知识工作视为工程问题:

Task → Brief → Rubric (hidden from executor) → Work → Verify → Fail? → Retry → Pass → Submit

编排器协调子代理、网页搜索、代码执行和文件 I/O,然后将其工作与它无法操纵的标准进行对比(评分标准在单独的调用中生成,执行者从未直接看到它)。

该 SDK 最初是作为在知识任务上进行强化学习训练的工具构建的。评分标准充当奖励函数,为通常缺乏奖励信号的任务提供结构化的奖励信号。


知识工作与代码有什么不同?

SDK 添加了许多当前代理在知识工作中缺乏的功能:

探索模式

  • 绘制解空间,识别集合层面的缺口,并提供多个选项。
  • 生成 N 种不同的方案,每种方案都有明确的假设和反事实(例如,“在 X 条件下可行,在 Y 条件下失效”。)
  • 最后给出集合层面缺口的总结——整个集合遗漏了哪些角度。
  • 对于需要权衡的策略、设计和创意问题非常有用。

请参阅示例仓库以了解其区别。

检查点

  • 允许在多代理工作流中暂停,检查出错位置,并从特定阶段恢复或分叉。
  • 对于搜索阶段后的多次探索或重新运行特定片段非常有帮助。

验证循环

验证步骤提供了主要的杠杆作用:

  • 能够准确根据评分标准评估自身工作的模型,比仅能生成更好初稿的模型更有价值。
  • 评分标准使质量对代理、对人类乃至对训练信号都变得可读。

关键特性

  • 远程执行环境: 支持 Docker、e2b、本地环境、浏览器沙箱等。模型在你的上下文中执行命令,并根据反馈循环进行迭代。代码执行被视为一种协议。
  • 工具调用: 模型可以编写终端代码并根据反馈迭代。你可以在上下文中传入函数或文档,模型将生成并执行所需代码(类似 Anthropic 的可编程工具调用)。细节:

指南与示例

  • SDK 指南:
  • 可扩展模式(自定义模式示例):
  • 文件操作:
  • CSV 示例:
  • 远程执行示例:

许可证

MIT 许可证。欢迎提供反馈。


评论链接:
积分: 4
评论数: 1

0 浏览
Back to Blog

相关文章

阅读更多 »