Launch HN: Canary (YC W26) – 能够理解你的代码的 AI QA
Source: Hacker News
Overview
嗨,HN!我们是 Aakash 和 Viswesh,正在构建 Canary (https://www.runcanary.ai)。我们创建能够读取你的代码库、判断 Pull Request 实际改动内容,并为每个受影响的用户工作流生成并执行测试的 AI 代理。
How Canary Works
- 连接到你的代码库 – Canary 分析应用的结构(路由、控制器、验证逻辑)。
- 读取 PR 差异 – 它理解更改背后的意图。
- 生成并运行测试 – 测试在你的预览应用上执行,端到端检查真实用户流程。
- 在 PR 上发表评论 – 结果和录屏直接发布在 PR 中,突出任何意外行为。
- 通过评论触发测试 – 你可以通过 PR 评论启动特定的用户工作流测试。
Beyond PR Testing
- 从 PR 生成的测试可以迁移到回归套件中。
- 你可以用纯英文提示来创建测试。
- Canary 能够从代码库生成完整的测试套件,安排并持续运行。
Example
我们的一个建筑技术客户的发票流程中,实际应付金额比原始提案总额偏差约 $1,600。Canary 在发布前捕捉到了该回归问题。
Technical Challenges
QA 涉及多种模态:
- 源代码、DOM/ARIA、设备模拟器
- 可视化验证、屏幕录制分析
- 网络/控制台日志、实时浏览器状态
单一基础模型无法处理所有这些。我们还需要:
- 定制的浏览器集群、用户会话、短暂环境
- 设备农场和数据种子,以确保可靠的测试执行
- 专门的测试框架来暴露普通 happy‑path 测试可能遗漏的二阶效应
Benchmark: QA‑Bench v0
为了衡量我们专为 QA 设计的代理,我们发布了 QA‑Bench v0,这是首个代码验证基准。
- 任务: 给定真实的 PR,识别所有受影响的用户工作流并生成相应测试。
- 数据集: 来自 Grafana、Mattermost、Cal.com 和 Apache Superset 的 35 个真实 PR。
- 指标: 相关性、覆盖率、一致性。
Results
| Model | Relevance | Coverage | Coherence |
|---|---|---|---|
| Canary | – | Lead | – |
| GPT 5.4 | – | -11 pts | – |
| Claude Code (Opus 4.6) | – | -18 pts | – |
| Sonnet 4.6 | – | -26 pts | – |
覆盖率差距最大,Canary 比 GPT 5.4 高出 11 分,比 Claude Code 高出 18 分,比 Sonnet 4.6 高出 26 分。
完整的方法论和各仓库的细分请阅读基准报告:https://www.runcanary.ai/blog/qa-bench-v0
Demo
你可以在这里查看产品演示:https://youtu.be/NeD9g1do_BU
Call for Feedback
我们期待来自从事代码验证或思考如何以不同方式衡量此类工作的朋友们的反馈。