Show HN: Open-Source SDK for AI 知识工作
发布: (2026年2月11日 GMT+8 01:06)
4 分钟阅读
原文: Hacker News
Source: Hacker News
概览
GitHub:
大多数 AI 代理框架针对代码:编写代码、运行测试、修复错误、重复。之所以有效,是因为代码有天然的验证信号——要么可运行,要么不可运行。
Knowledge Work SDK 将知识工作视为工程问题:
Task → Brief → Rubric (hidden from executor) → Work → Verify → Fail? → Retry → Pass → Submit
编排器协调子代理、网页搜索、代码执行和文件 I/O,然后将其工作与它无法操纵的标准进行对比(评分标准在单独的调用中生成,执行者从未直接看到它)。
该 SDK 最初是作为在知识任务上进行强化学习训练的工具构建的。评分标准充当奖励函数,为通常缺乏奖励信号的任务提供结构化的奖励信号。
知识工作与代码有什么不同?
SDK 添加了许多当前代理在知识工作中缺乏的功能:
探索模式
- 绘制解空间,识别集合层面的缺口,并提供多个选项。
- 生成 N 种不同的方案,每种方案都有明确的假设和反事实(例如,“在 X 条件下可行,在 Y 条件下失效”。)
- 最后给出集合层面缺口的总结——整个集合遗漏了哪些角度。
- 对于需要权衡的策略、设计和创意问题非常有用。
请参阅示例仓库以了解其区别。
检查点
- 允许在多代理工作流中暂停,检查出错位置,并从特定阶段恢复或分叉。
- 对于搜索阶段后的多次探索或重新运行特定片段非常有帮助。
验证循环
验证步骤提供了主要的杠杆作用:
- 能够准确根据评分标准评估自身工作的模型,比仅能生成更好初稿的模型更有价值。
- 评分标准使质量对代理、对人类乃至对训练信号都变得可读。
关键特性
- 远程执行环境: 支持 Docker、e2b、本地环境、浏览器沙箱等。模型在你的上下文中执行命令,并根据反馈循环进行迭代。代码执行被视为一种协议。
- 工具调用: 模型可以编写终端代码并根据反馈迭代。你可以在上下文中传入函数或文档,模型将生成并执行所需代码(类似 Anthropic 的可编程工具调用)。细节:
指南与示例
- SDK 指南:
- 可扩展模式(自定义模式示例):
- 文件操作:
- CSV 示例:
- 远程执行示例:
许可证
MIT 许可证。欢迎提供反馈。
评论链接:
积分: 4
评论数: 1