Launch HN: Spine Swarm (YC S23) – 在视觉画布上协作的 AI 代理

发布: 1个月前 (2026年3月13日 GMT+8 21:22)

9 分钟阅读

原文: Hacker News

Source: Hacker News

Source: https://www.getspine.ai

嘿，HN！

我们是 Ashwin 和 Akshay，来自 Spine AI – https://www.getspine.ai

什么是 Spine Swarm？

Spine Swarm 是一个 多代理系统，在 无限视觉画布 上工作，以完成复杂的、非编码项目，例如：

竞争分析
财务建模
SEO 审计
项目路演（Pitch Deck）
交互式原型
…以及更多

▶️ 演示视频： https://youtu.be/R_2-ggpZz0Q

我们的故事

朋友 13+ 年——在 NTU（北脊校区）的一门机器学习课程中相识（“North Spine” 校区启发了我们的名字）。
通过 Y Combinator S23。
大约 3 年 时间里，不断迭代 Spine，推出多个产品版本。

核心洞见

聊天不是处理复杂 AI 工作的合适界面。

聊天是 线性线程，而真实项目是 非线性 的。
依赖聊天机器人隐式地管理上下文，会导致以下问题：
- 看不到各个部分之间的关联。
- 无法在不重新运行全部步骤的情况下修正单一步骤。
- 无法并行探索多种策略。

我们需要一个 工作空间，让工作结构是显式且可由用户控制的，而不是隐藏在上下文窗口中。

画布 + 块模型

概念	描述
无限视觉画布	用块而不是线程来思考。
块	在 AI 模型之上的抽象层（LLM 调用、图像生成、网页浏览、应用、幻灯片、电子表格等）。
乐高积木类比	每个块执行特定功能；它们可以拼接在一起，组合方式无限。
连接	任意块都可以连接到任意其他块，保证上下文传递，无论类型如何。
模型无关	单个工作流可以混合使用 OpenAI LLM、Nano Banana Pro 图像生成、Claude 用于交互式应用等。
分支	多个块可以从同一输入分支出来，用不同模型进行分析，然后将结果送入下游合成块。

UI 的演进

手动画布（v1） – 用户自行输入提示、选择模型、运行块并手动建立连接。
- 深受创始人和产品经理喜爱：可以在共享的上游上下文上轻松分支（原型、PRD、竞争评析、路演材料）。
聊天层请求 – 新用户希望有一个聊天界面，能够 自动生成并连接块。
自主代理 – 构建聊天层的过程中发现，代理可以运行 数小时的自主工作流，通过将工作委派给块并将中间结果存储在画布上，保持上下文整洁。

现在的工作方式

任务提交 → 中心编排器 将任务拆解为子任务。
人格代理（针对每个子任务专门化）在画布块上操作：
- 根据需要覆盖默认设置（模型、提示）。
- 为每个块挑选最佳模型；有时会使用多个模型对同一块进行比较。
并行执行 – 独立的子任务并发运行；下游代理自动获取上游上下文。
人机交互 – 任意代理可以暂停并向用户请求澄清/反馈后再继续。
迭代细化 – 输出后，你可以选取部分块，通过聊天 无需重新运行整个工作流 进行迭代。

为什么画布很重要

提供 持久、结构化的项目全景，任何代理都可以在任意时刻读取或写入。
避免了 多代理流水线中常见的上下文衰减（代理不再需要把所有信息都记在内存里）。
实现 显式的代理交接，提升效率和可审计性。
…（未完，续在第 2 部分）

ry step is fully auditable, allowing you to trace exactly how each conclusion was reached.

基准测试

基准	范围	结果
DeepMind DeepSearchQA	900 道题目，涵盖 17 个领域，每道题目都需要一个因果链步骤。	87.6 % 的准确率，零人工干预。
GAIA Level 3	先前的基准，我们在其中发现了许多真实答案错误。	1.0 % 的命中率（在纠正基准问题后）。

对于 DeepSearchQA，我们仅使用了相关的块类型（LLM 调用、网页浏览、表格），并禁用了人工澄清，迫使代理完全独立运行。
可审计性揭示了旧 GAIA 基准中的实际错误（错误或模糊的预期答案）——这是黑箱流水线无法发现的。

完整的方法论、架构细节以及基准错误分析可在我们的报告中查阅：

https://blog.getspine.ai/spine-swarm-hits-1-on-gaia-level-3-…

我们很高兴继续推动多代理、画布式 AI 工作流的极限。欢迎提供反馈和提问！

概述

测量封闭式问题的准确性。结果表明，同样的架构在最小监督下也能产生更好的开放式输出，如演示文稿、报告和原型。

我们看到早期用户分成了两类：

实时观察者 – 观察代理的工作并在流程中途介入重定向。
任务队列用户 – 将任务排入队列，稍后返回查看完成的交付物。

两种方法都有效，因为画布保留了完整的工作链，您可以随时审计或介入。

快速入门任务

尝试以下操作： 向系统提供您网站的 URL 并请求：

完整的 SEO 分析
竞争格局概览
带有幻灯片的优先增长路线图

您将看到多个代理在画布上同时启动。

常见使用场景

融资推介稿及财务模型
根据截图和 PRD 原型化功能
竞争分析报告
深度学习计划，从多个角度研究主题并生成结构化材料，供进一步探索

定价

基于使用的积分 与区块使用和所使用的底层模型相关。
代理通常比手动工作流消耗更多积分，因为它们经过调优以获得最佳结果（它们会挑选最佳区块并进行更多工作）。

细节：

免费层 可用。
注意事项： 我们将免费层的额度设定为让您尝试真实任务，但任务的复杂度各不相同。如果在您有充分机会探索之前积分用完，请发送邮件至 founders@getspine.ai，我们会与您合作。

反馈请求

我们很想了解您对体验的反馈：

哪些方面做得好？
哪些方面做得不好？
哪些地方不足？

我们也想了解其他人在编码之外处理复杂、多步骤 AI 工作时的做法。

您在使用哪些工具？
最先出现的瓶颈是什么？

我们整天都会在评论区等候。

评论链接：

积分： 8
# 评论： 3