Launch HN: Spine Swarm (YC S23) – 在视觉画布上协作的 AI 代理
Source: Hacker News
Source: https://www.getspine.ai
嘿,HN!
我们是 Ashwin 和 Akshay,来自 Spine AI – https://www.getspine.ai
什么是 Spine Swarm?
Spine Swarm 是一个 多代理系统,在 无限视觉画布 上工作,以完成复杂的、非编码项目,例如:
- 竞争分析
- 财务建模
- SEO 审计
- 项目路演(Pitch Deck)
- 交互式原型
- …以及更多
▶️ 演示视频: https://youtu.be/R_2-ggpZz0Q
我们的故事
- 朋友 13+ 年——在 NTU(北脊校区)的一门机器学习课程中相识(“North Spine” 校区启发了我们的名字)。
- 通过 Y Combinator S23。
- 大约 3 年 时间里,不断迭代 Spine,推出多个产品版本。
核心洞见
聊天不是处理复杂 AI 工作的合适界面。
- 聊天是 线性线程,而真实项目是 非线性 的。
- 依赖聊天机器人隐式地管理上下文,会导致以下问题:
- 看不到各个部分之间的关联。
- 无法在不重新运行全部步骤的情况下修正单一步骤。
- 无法并行探索多种策略。
我们需要一个 工作空间,让工作结构是显式且可由用户控制的,而不是隐藏在上下文窗口中。
画布 + 块模型
| 概念 | 描述 |
|---|---|
| 无限视觉画布 | 用 块 而不是线程来思考。 |
| 块 | 在 AI 模型之上的抽象层(LLM 调用、图像生成、网页浏览、应用、幻灯片、电子表格等)。 |
| 乐高积木类比 | 每个块执行特定功能;它们可以 拼接在一起,组合方式无限。 |
| 连接 | 任意块都可以连接到任意其他块,保证上下文传递,无论类型如何。 |
| 模型无关 | 单个工作流可以混合使用 OpenAI LLM、Nano Banana Pro 图像生成、Claude 用于交互式应用等。 |
| 分支 | 多个块可以从同一输入分支出来,用不同模型进行分析,然后将结果送入下游合成块。 |
UI 的演进
手动画布(v1) – 用户自行输入提示、选择模型、运行块并手动建立连接。
- 深受创始人和产品经理喜爱:可以在共享的上游上下文上轻松分支(原型、PRD、竞争评析、路演材料)。
聊天层请求 – 新用户希望有一个聊天界面,能够 自动生成并连接块。
自主代理 – 构建聊天层的过程中发现,代理可以运行 数小时的自主工作流,通过将工作委派给块并将中间结果存储在画布上,保持上下文整洁。
现在的工作方式
- 任务提交 → 中心编排器 将任务拆解为子任务。
- 人格代理(针对每个子任务专门化)在画布块上操作:
- 根据需要覆盖默认设置(模型、提示)。
- 为每个块挑选最佳模型;有时会使用多个模型对同一块进行比较。
- 并行执行 – 独立的子任务并发运行;下游代理自动获取上游上下文。
- 人机交互 – 任意代理可以暂停并向用户请求澄清/反馈后再继续。
- 迭代细化 – 输出后,你可以选取部分块,通过聊天 无需重新运行整个工作流 进行迭代。
为什么画布很重要
- 提供 持久、结构化的项目全景,任何代理都可以在任意时刻读取或写入。
- 避免了 多代理流水线中常见的上下文衰减(代理不再需要把所有信息都记在内存里)。
- 实现 显式的代理交接,提升效率和可审计性。
- …(未完,续在第 2 部分)
ry step is fully auditable, allowing you to trace exactly how each conclusion was reached.
基准测试
| 基准 | 范围 | 结果 |
|---|---|---|
| DeepMind DeepSearchQA | 900 道题目,涵盖 17 个领域,每道题目都需要一个因果链步骤。 | 87.6 % 的准确率,零人工干预。 |
| GAIA Level 3 | 先前的基准,我们在其中发现了许多真实答案错误。 | 1.0 % 的命中率(在纠正基准问题后)。 |
- 对于 DeepSearchQA,我们仅使用了相关的块类型(LLM 调用、网页浏览、表格),并禁用了人工澄清,迫使代理完全独立运行。
- 可审计性揭示了旧 GAIA 基准中的实际错误(错误或模糊的预期答案)——这是黑箱流水线无法发现的。
完整的方法论、架构细节以及基准错误分析可在我们的报告中查阅:
https://blog.getspine.ai/spine-swarm-hits-1-on-gaia-level-3-…
我们很高兴继续推动多代理、画布式 AI 工作流的极限。欢迎提供反馈和提问!
概述
测量封闭式问题的准确性。结果表明,同样的架构在最小监督下也能产生更好的开放式输出,如演示文稿、报告和原型。
我们看到早期用户分成了两类:
- 实时观察者 – 观察代理的工作并在流程中途介入重定向。
- 任务队列用户 – 将任务排入队列,稍后返回查看完成的交付物。
两种方法都有效,因为画布保留了完整的工作链,您可以随时审计或介入。
快速入门任务
尝试以下操作: 向系统提供您网站的 URL 并请求:
- 完整的 SEO 分析
- 竞争格局概览
- 带有幻灯片的优先增长路线图
您将看到多个代理在画布上同时启动。
常见使用场景
- 融资推介稿及财务模型
- 根据截图和 PRD 原型化功能
- 竞争分析报告
- 深度学习计划,从多个角度研究主题并生成结构化材料,供进一步探索
定价
- 基于使用的积分 与区块使用和所使用的底层模型相关。
- 代理通常比手动工作流消耗更多积分,因为它们经过调优以获得最佳结果(它们会挑选最佳区块并进行更多工作)。
细节:
- 免费层 可用。
- 注意事项: 我们将免费层的额度设定为让您尝试真实任务,但任务的复杂度各不相同。如果在您有充分机会探索之前积分用完,请发送邮件至 founders@getspine.ai,我们会与您合作。
反馈请求
我们很想了解您对体验的反馈:
- 哪些方面做得好?
- 哪些方面做得不好?
- 哪些地方不足?
我们也想了解其他人在编码之外处理复杂、多步骤 AI 工作时的做法。
- 您在使用哪些工具?
- 最先出现的瓶颈是什么?
我们整天都会在评论区等候。
评论链接:
积分: 8
# 评论: 3