我们需要对AI进行排放测试

发布: 2天前 (2026年3月1日 GMT+8 18:58)

10 分钟阅读

原文: Dev.to

Source: Dev.to

问题

我们在汽车上路前会进行排放测试。我们对家电进行能效评级。我们在建筑上贴标签，告诉你每平方米消耗多少电能。

AI 代理没有这些。 没有人会问系统在回答是或否的问题时消耗了多少 token。

不可见的浪费

每生成一个 token，LLM 都会消耗能源：真实的电力、真实的冷却、真实的硬件折旧。一个模型为了提供 40 个实际信息的 token，却生成了 2,000 个前言、免责声明和填充内容，这就是在产生浪费——物理的、可测量的、环境的浪费。

没有人对其进行测量。我们正处于 AI 的 “含铅汽油” 时代：技术可用，人们喜爱，但其外部性完全没有被计价。

这会是什么样子？

一个针对效率而非准确性的标准化基准。给定一组已知正确答案的任务，系统为完成这些任务消耗了多少 token？

四个指标

Token Efficiency Ratio (TER)
```
TER = useful_output_tokens / total_tokens_generated
```
如果一个系统生成了 500 个 token，但只有 80 个包含实际信息，则其 TER 为 0.16 —— 评级为 F。
Task Completion Cost (TCC)

代理在完成一个明确定义的任务时消耗了多少 token（输入 + 输出）？例如：总结本文档、修复此错误、回答此问题。如果两个系统都给出正确答案，但其中一个使用的 token 是另一个的 10 倍，则它们并不等价。
Retry and Exploration Overhead

具备代理能力的系统是最严重的违规者。一个在找到正确方案前尝试了五次错误方法的代理可能最终“成功”，但它消耗的资源是第一次就正确推理的代理的 5 倍。
Conversation Waste Index

在多轮交互中，AI 有多少对话是重复自身、重新陈述问题，或生成用户已经知道的内容？这相当于在交通堵塞中怠速的发动机——燃油消耗却毫无进展。

数字

ChatGPT 单独拥有约9亿每周活跃用户。
加上 Gemini、Claude、Copilot 等，整体用户数远超十亿。

如果每次交互平均浪费 500 个不必要的 token，则每周浪费 5000 亿个 token。

使用保守估计 每 1,000 个 token 消耗 0.001 kWh 进行推理，浪费相当于 每周 500,000 kWh——足以为大约 5 万户家庭供电。

具备自主性的 AI 将把这一数字成倍放大。那些自动运行、调用工具、生成子代理、循环重试的系统——一个运行 10 分钟、在循环中消耗 token 的代理，不仅浪费金钱，更浪费共享的大气环境。

类比成立的地方与失效的地方

Cars	AI Tokens
在把你从 A 点移动到 B 点的过程中产生 CO₂ 作为副产品。	在回答你的问题时产生 CO₂ 作为副产品。
有用的工作可以在极大不同的废弃物量下完成。	有用的工作可以在极大不同的废弃物量下完成。
消费者看不到废弃物的产生。	消费者看不到废弃物的产生。
仅靠市场激励无法解决（更大的引擎被视为“更好”）。	仅靠市场激励无法解决（更大的模型被视为“更好”）。
监管和标签改变了行为（CAFE 标准，Energy‑Star）。	监管和标签可能改变行为。

关键区别： 对于汽车，你无法让发动机 更深入思考 是否需要燃烧燃料。而在 AI 中，你可以。系统可以判断是否需要 2,000 token 的回复，还是 50 token 已足够。废弃物存在于软件层面，而非物理层面，这使得它比汽车排放问题更容易解决。

会有什么变化？

效率成为竞争维度。 基准测试会奖励在更少 token 下达到相同准确度的模型。一个在 200 token 上得分 95 % 的模型，其评级会高于在 2,000 token 上得分 96 % 的模型。
代理框架面临优化压力。 如今的代理架构浪费惊人（重试循环、全上下文重读、冗余工具调用）。排放评级会促使开发者采用更智能的规划、更好的缓存以及更高效的工具使用。
用户获得选择依据。 人们往往凭感觉和营销选择 AI 工具。排放标签——类似冰箱上的千瓦时贴纸——让他们能够将效率纳入考量：“该代理是 A‑级：完成编码任务所用 token 是平均水平的 3 倍少。”
定价反映现实。 目前的 token 定价是一场向下竞争的赛跑。如果我们将环境成本内部化，浪费的系统会变得昂贵，而高效的系统则会变得便宜。

谁来构建？

没有单一公司应该拥有它，尤其不是那些出售代币的公司。它需要：

独立机构（例如 EPA 风格的机构或欧盟能源标签机构），负责定义基准任务和评分。
标准化测试套件： 100–500 个多样化任务，涵盖编码、写作、推理和代理工作流，并拥有已知的最佳 token 预算。
透明报告： 提供者在能力基准旁公布能耗评分。
分层评级： A‑到‑F、星级或其他易于非技术用户理解的简易符号。

欧盟已经在《AI 法案》的可持续性条款中朝此方向迈进，但“报告你的能源消耗”过于笼统。我们需要一种每项任务的效率指标，以便直接比较系统。

Source: …

两个代理，一个任务

任务：“读取这个200行的文件并告诉我是否存在SQL注入漏洞。”

代理	输出	令牌数	判定
代理 A	“是的。第47行直接将 `user_input` 传入 f‑string SQL 查询，未使用参数化。请改用参数化查询。”	120	正确，简洁。
代理 B	读取文件，重新读取，然后生成一段1500令牌的回复：包括SQL注入的概念、OWASP Top 10的历史、三种修复策略及代码示例、ORM交互的说明，以及关于完整性的免责声明。	1,500	正确，但浪费。

两个代理的结论都是正确的；代理 B 为同样的信息需求消耗了大量令牌（也就消耗了更多能源）。

结论

正如排放标准改变了汽车和家电市场，令牌效率标准也可以引导AI开发走向更绿色、更负责任的系统。通过测量、标记并激励低浪费的AI，我们把一种看不见的外部性转化为可见的、由市场驱动的指标——这对用户、提供商以及地球都有益。

# Emissions Testing for AI Agents

Agent A passes the emission test. Agent B is a gas guzzler.

---

We don’t let cars on the road without testing their emissions.  
We shouldn’t let AI agents into production without testing theirs.

As we scale these systems to billions of users and autonomous operation, we should probably figure out if we’re building the computational equivalent of a 1970s muscle car: impressive, powerful, and catastrophically wasteful.

**The token is the new gallon.**

*I’d like to hear from anyone working on AI sustainability, green computing, or model optimization. How would you design the benchmark?*

我们需要对AI进行排放测试

问题

不可见的浪费

这会是什么样子？

四个指标

数字

类比成立的地方与失效的地方

会有什么变化？

谁来构建？

两个代理，一个任务

结论

相关文章

菌丝网络：Prompt Ideas 如何在私密共享和泄露的企业图书馆中地下传播

LLM 幻觉指数 2026：为什么 Claude 4.6 Sonnet 在 BullshitBench v2 中占主导，而推理模型却失败

GPT-5.3 Instant：更流畅、更有用的日常对话

GPT-5.3 即时系统卡