Launch HN: Spine Swarm (YC S23) – 在视觉画布上协作的 AI 代理

发布: (2026年3月13日 GMT+8 21:22)
9 分钟阅读
原文: Hacker News

Source: Hacker News

Source: https://www.getspine.ai

嘿,HN!

我们是 AshwinAkshay,来自 Spine AIhttps://www.getspine.ai

什么是 Spine Swarm?

Spine Swarm 是一个 多代理系统,在 无限视觉画布 上工作,以完成复杂的、非编码项目,例如:

  • 竞争分析
  • 财务建模
  • SEO 审计
  • 项目路演(Pitch Deck)
  • 交互式原型
  • …以及更多

▶️ 演示视频: https://youtu.be/R_2-ggpZz0Q

我们的故事

  • 朋友 13+ 年——在 NTU(北脊校区)的一门机器学习课程中相识(“North Spine” 校区启发了我们的名字)。
  • 通过 Y Combinator S23
  • 大约 3 年 时间里,不断迭代 Spine,推出多个产品版本。

核心洞见

聊天不是处理复杂 AI 工作的合适界面。

  • 聊天是 线性线程,而真实项目是 非线性 的。
  • 依赖聊天机器人隐式地管理上下文,会导致以下问题:
    • 看不到各个部分之间的关联。
    • 无法在不重新运行全部步骤的情况下修正单一步骤。
    • 无法并行探索多种策略。

我们需要一个 工作空间,让工作结构是显式且可由用户控制的,而不是隐藏在上下文窗口中。

画布 + 块模型

概念描述
无限视觉画布 而不是线程来思考。
在 AI 模型之上的抽象层(LLM 调用、图像生成、网页浏览、应用、幻灯片、电子表格等)。
乐高积木类比每个块执行特定功能;它们可以 拼接在一起,组合方式无限。
连接任意块都可以连接到任意其他块,保证上下文传递,无论类型如何。
模型无关单个工作流可以混合使用 OpenAI LLM、Nano Banana Pro 图像生成、Claude 用于交互式应用等。
分支多个块可以从同一输入分支出来,用不同模型进行分析,然后将结果送入下游合成块。

UI 的演进

  1. 手动画布(v1) – 用户自行输入提示、选择模型、运行块并手动建立连接。

    • 深受创始人和产品经理喜爱:可以在共享的上游上下文上轻松分支(原型、PRD、竞争评析、路演材料)。
  2. 聊天层请求 – 新用户希望有一个聊天界面,能够 自动生成并连接块

  3. 自主代理 – 构建聊天层的过程中发现,代理可以运行 数小时的自主工作流,通过将工作委派给块并将中间结果存储在画布上,保持上下文整洁。

现在的工作方式

  1. 任务提交中心编排器 将任务拆解为子任务。
  2. 人格代理(针对每个子任务专门化)在画布块上操作:
    • 根据需要覆盖默认设置(模型、提示)。
    • 为每个块挑选最佳模型;有时会使用多个模型对同一块进行比较。
  3. 并行执行 – 独立的子任务并发运行;下游代理自动获取上游上下文。
  4. 人机交互 – 任意代理可以暂停并向用户请求澄清/反馈后再继续。
  5. 迭代细化 – 输出后,你可以选取部分块,通过聊天 无需重新运行整个工作流 进行迭代。

为什么画布很重要

  • 提供 持久、结构化的项目全景,任何代理都可以在任意时刻读取或写入。
  • 避免了 多代理流水线中常见的上下文衰减(代理不再需要把所有信息都记在内存里)。
  • 实现 显式的代理交接,提升效率和可审计性。
  • …(未完,续在第 2 部分)

ry step is fully auditable, allowing you to trace exactly how each conclusion was reached.

基准测试

基准范围结果
DeepMind DeepSearchQA900 道题目,涵盖 17 个领域,每道题目都需要一个因果链步骤。87.6 % 的准确率,零人工干预
GAIA Level 3先前的基准,我们在其中发现了许多真实答案错误。1.0 % 的命中率(在纠正基准问题后)。
  • 对于 DeepSearchQA,我们仅使用了相关的块类型(LLM 调用、网页浏览、表格),并禁用了人工澄清,迫使代理完全独立运行。
  • 可审计性揭示了旧 GAIA 基准中的实际错误(错误或模糊的预期答案)——这是黑箱流水线无法发现的。

完整的方法论、架构细节以及基准错误分析可在我们的报告中查阅:

https://blog.getspine.ai/spine-swarm-hits-1-on-gaia-level-3-

我们很高兴继续推动多代理、画布式 AI 工作流的极限。欢迎提供反馈和提问!

概述

测量封闭式问题的准确性。结果表明,同样的架构在最小监督下也能产生更好的开放式输出,如演示文稿、报告和原型。

我们看到早期用户分成了两类:

  • 实时观察者 – 观察代理的工作并在流程中途介入重定向。
  • 任务队列用户 – 将任务排入队列,稍后返回查看完成的交付物。

两种方法都有效,因为画布保留了完整的工作链,您可以随时审计或介入。

快速入门任务

尝试以下操作: 向系统提供您网站的 URL 并请求:

  1. 完整的 SEO 分析
  2. 竞争格局概览
  3. 带有幻灯片的优先增长路线图

您将看到多个代理在画布上同时启动。

常见使用场景

  • 融资推介稿及财务模型
  • 根据截图和 PRD 原型化功能
  • 竞争分析报告
  • 深度学习计划,从多个角度研究主题并生成结构化材料,供进一步探索

定价

  • 基于使用的积分 与区块使用和所使用的底层模型相关。
  • 代理通常比手动工作流消耗更多积分,因为它们经过调优以获得最佳结果(它们会挑选最佳区块并进行更多工作)。

细节:

  • 免费层 可用。
  • 注意事项: 我们将免费层的额度设定为让您尝试真实任务,但任务的复杂度各不相同。如果在您有充分机会探索之前积分用完,请发送邮件至 founders@getspine.ai,我们会与您合作。

反馈请求

我们很想了解您对体验的反馈:

  • 哪些方面做得好?
  • 哪些方面做得不好?
  • 哪些地方不足?

我们也想了解其他人在编码之外处理复杂、多步骤 AI 工作时的做法。

  • 您在使用哪些工具?
  • 最先出现的瓶颈是什么?

我们整天都会在评论区等候。

评论链接:

积分: 8
# 评论: 3

0 浏览
Back to Blog

相关文章

阅读更多 »

语言模型团队作为分布式系统

摘要:大语言模型(LLMs)正变得越来越强大,促使人们最近对 LLM 团队产生兴趣。然而,尽管 LLM 团队的部署日益增多……