乘数就是工作本身:为何 Agentic AI 改变一切
Source: Dev.to
概述
我本周某个晚上花了十分钟与 Claude Code 共事。不是十分钟的提示、微调或尝试寻找正确的咒语——十分钟的实际工作。在这段时间里,它大约生成了 48 000 行代码。
这个数字足够荒唐,以至于立刻引发怀疑,包括我自己的怀疑。因此我对其进行了测量。我记录了发生了什么,我实际参与了多少时间,以及当把输出转换成我们通常用来衡量工程工作的单位时,它看起来是什么样子。
让我不安的并不仅仅是代码的数量。而是我的工作节奏似乎几乎不影响它。系统会持续生成,无论我打字快慢。我的角色几乎立刻从编写转变为 决定、重定向,偶尔阻止它走向无益的方向。
工程经济仪表板
好奇心转化为仪表化。我构建了几个 Grafana 仪表盘,以观察实际在底层发生了什么。在大约一小时的时间里,系统生成了约 48 000 行代码。我在这段时间内的直接参与大约只有 十分钟。
使用一个非常慷慨的估算——每开发者小时 75 行生产质量代码,这一产出相当于 近四周的工作量。当我在两个代码库上并行运行多个代理时,这个比例甚至更高——短时间内达到了五位数。
我 不 认为代码行数是衡量价值的有意义的代理指标。我在职业生涯中已经删除了足够多的代码,足以确信这一点。但代码行数仍然是组织进行预算、人员配置和估算的方式。在这种背景下,这种算术关系很难被忽视。
生产率比率仪表
一名资深工程师的全部成本大约为 每年 150 千至 200 千美元。为了简化计算,可视为 每小时 100 美元。按此计,每行生产代码的成本约为 1 美元。
我在这里观察到的每行成本只有 几分之一美分。
我使用的是 每月 200 美元 的套餐。系统在一小时内产生了价值超过 70 美元 的等效 API 输出。我在该小时的订阅费用分摊不到 0.30 美元。无论人们如何看待这种设置,它都并不昂贵。
每日/每周摘要仪表盘
此时通常会出现一种异议,有时是口头的,有时是沉默的:
“你不可能在审查成千上万行代码。质量在如此大的量级下必然会崩溃。”
当然,我并没有逐行阅读代码。那样既没有意义,也会错过这里正在发生的更重要的转变。
质量的责任向上游转移。
- 我依赖会大声且提前失败的自动化测试。
- 我不仅关注测试是否通过,还关注它们对代码的检验程度:分支覆盖率、变异测试、在实现开始前编写的行为层面的验收标准。
- 我使用专门的代理相互批评对方的输出。
- 防护栏在危险操作发生前阻止它们。
- 当出现故障时,我会立刻看到。
我花时间做的事与过去大不相同。我定义约束、澄清意图,并决定哪些事情值得追求、哪些应提前放弃。当系统内部出现冲突时,我会介入;当它表现正常时,我基本上让它自行运行。
Claude 代码指标仪表板
这对团队有不舒服的影响。
一个开发者,只要配备了这些工具并对使用方式保持一定的纪律,就能产生以前需要整个组织才能完成的原始产出。这并不意味着判断力、品味或架构感已经变得无关紧要。恰恰相反,它们变得更重要,因为它们现在成为了限制因素。
工程组织面临的问题不是这在哲学上是否令人满意,而是它们是否能够承担忽视它的后果。面对这种杠杆效应,选择不进行实验看起来不再是审慎,而更像是自我否认。
工作的形态已经改变。过去的工作是编写代码。现在越来越多的是定义结果、设定边界并验证行为。这感觉不像在敲键盘,更像在指挥;不像在构建,更像在编辑。
如果你想把这当作“v…(原文在此截断)。
“写代码”,你可以这么说。如果你想担心这对初级工程师或工艺本身意味着什么,这些担忧是合理的,值得讨论。但经济因素已经悄然到来,正在重新排列激励。
乘数不再是一个不错的奖金。
它本身就是工作。



