[Paper] 驯服 Scylla：理解编码海域的多头代理守护进程

发布: 3天前 (2026年2月9日 GMT+8 23:06)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.08765v1

请提供您希望翻译的具体文本内容，我将按照要求进行简体中文翻译并保留原始的格式、Markdown 语法以及技术术语。谢谢！

概述

Micah Villmow 的论文提出了 Scylla，一个系统化框架，用于评估基于 LLM 的编码助手和多代理流水线。通过衡量 Cost‑of‑Pass（CoP）——获得正确解答的预期美元支出——Scylla 让开发者能够在同一水平线上比较架构调整（提示、工具使用、代理编排）。

Scylla 评估套件：七个分层测试级别（T0‑T6），逐步增加复杂度（例如，基础提示 → 工具增强 → 多代理），以隔离因果因素。
Cost‑of‑Pass (CoP) 指标：一个清晰、面向业务的关键绩效指标，结合货币成本和成功率，能够直接进行权衡分析。
模型无关设计：适用于任何命令行编码工具；本文使用 Claude Sonnet 4.5 作为生成引擎进行演示。
多‑LLM 判分管线：使用三个 Claude 模型（Opus 4.5、Sonnet 4.5、Haiku 4.5）通过直接测试、基于评分标准的 LLM 评估和定性审查产生共识分数。
可复现基准：所有脚本、提示和数据均已发布，社区可以复制并扩展本研究。

定义测试层级
- T0：简单提示 → 单个 LLM 输出。
- T1‑T3：加入确定性工具（例如静态分析、测试生成）。
- T4‑T6：引入多代理编排、动态工具选择和自我改进循环。
在精选的编码问题套件上运行每个层级（包括算法题、API 集成和错误修复任务）。
收集结果：对每次运行，记录 API 调用次数、令牌使用量，以及生成的代码是否通过隐藏测试套件。
计算 CoP

[ \text{CoP} = \frac{\text{总成本（API 调用次数 × 每令牌价格）}}{\text{通过的解答数量}} ]

评估：使用三种 Claude 模型作为评审员。它们 (a) 对代码进行隐藏测试，(b) 应用由 LLM 生成的评分标准，(c) 给出简短的定性判决。通过多数投票达成共识。

整个流水线全自动化，开发者可以插入自己的代理或提示，并在几分钟内获得 CoP 报告。

层级	平均通过率	每次运行平均成本	成本效能 (USD)
T0（纯提示）	42 %	$0.08	$0.19
T2（工具增强）	58 %	$0.12	$0.21
T4（单代理自我精炼）	66 %	$0.18	$0.27
T6（完整多代理）	71 %	$0.31	$0.44

关键结论： 更复杂的架构并不一定能带来更好的成本‑性能权衡。

简而言之，Scylla 将基于 LLM 的编码助手的“黑箱”转化为可量化的工程决策。

未来工作旨在扩大问题集，加入多供应商评审，并探索将 CoP 与开发者体验评分相结合的混合评估指标。