Launch HN: Canary (YC W26) – 能够理解你的代码的 AI QA

发布: 21小时前 (2026年3月20日 GMT+8 00:01)

4 分钟阅读

原文: Hacker News

Source: Hacker News

Overview

嗨，HN！我们是 Aakash 和 Viswesh，正在构建 Canary (https://www.runcanary.ai)。我们创建能够读取你的代码库、判断 Pull Request 实际改动内容，并为每个受影响的用户工作流生成并执行测试的 AI 代理。

How Canary Works

连接到你的代码库 – Canary 分析应用的结构（路由、控制器、验证逻辑）。
读取 PR 差异 – 它理解更改背后的意图。
生成并运行测试 – 测试在你的预览应用上执行，端到端检查真实用户流程。
在 PR 上发表评论 – 结果和录屏直接发布在 PR 中，突出任何意外行为。
通过评论触发测试 – 你可以通过 PR 评论启动特定的用户工作流测试。

Beyond PR Testing

从 PR 生成的测试可以迁移到回归套件中。
你可以用纯英文提示来创建测试。
Canary 能够从代码库生成完整的测试套件，安排并持续运行。

Example

我们的一个建筑技术客户的发票流程中，实际应付金额比原始提案总额偏差约 $1,600。Canary 在发布前捕捉到了该回归问题。

Technical Challenges

QA 涉及多种模态：

源代码、DOM/ARIA、设备模拟器
可视化验证、屏幕录制分析
网络/控制台日志、实时浏览器状态

单一基础模型无法处理所有这些。我们还需要：

定制的浏览器集群、用户会话、短暂环境
设备农场和数据种子，以确保可靠的测试执行
专门的测试框架来暴露普通 happy‑path 测试可能遗漏的二阶效应

Benchmark: QA‑Bench v0

为了衡量我们专为 QA 设计的代理，我们发布了 QA‑Bench v0，这是首个代码验证基准。

任务： 给定真实的 PR，识别所有受影响的用户工作流并生成相应测试。
数据集： 来自 Grafana、Mattermost、Cal.com 和 Apache Superset 的 35 个真实 PR。
指标： 相关性、覆盖率、一致性。

Results

Model	Relevance	Coverage	Coherence
Canary	–	Lead	–
GPT 5.4	–	-11 pts	–
Claude Code (Opus 4.6)	–	-18 pts	–
Sonnet 4.6	–	-26 pts	–

覆盖率差距最大，Canary 比 GPT 5.4 高出 11 分，比 Claude Code 高出 18 分，比 Sonnet 4.6 高出 26 分。
完整的方法论和各仓库的细分请阅读基准报告：https://www.runcanary.ai/blog/qa-bench-v0

Demo

你可以在这里查看产品演示：https://youtu.be/NeD9g1do_BU

Call for Feedback

我们期待来自从事代码验证或思考如何以不同方式衡量此类工作的朋友们的反馈。

相关文章

阅读更多 »

我发现字体设计的那一天

五十年前的本月，1976年3月，我20岁时，对字体设计的兴趣由此萌生。!https://www.marksimonson.com/_astro/Mark_1976.CUI1PPRz_Z1hRTVk.webp

对独立 AI Grid 的需求

苦涩的教训告诉我们，要通过扩大计算规模来解锁前沿 AI 的进展。经验记录证实了这一点。专注的、独立的团队已经展示了……

小米推出下一代 SU7，续航 902 公里并配备 Lidar，仍然低于特斯拉

Xiaomi SU7 第二代更新

Waymo 比人类司机安全13倍

出了点问题，但别担心——我们再试一次。!https://abs-0.twimg.com/emoji/v2/svg/26a0.svg 某些隐私相关的扩展可能导致问题…