提示工程的终结:进入 Agent 控制时代

发布: (2025年12月14日 GMT+8 21:34)
4 min read
原文: Dev.to

Source: Dev.to

在过去的两年里,prompt engineering 是主要的热点。它有趣、混乱且富有创造性。但虽然它有一定的结构,结果却很少能达到足够一致的水平来让我们满意。

Google & Kaggle AI Agents Intensive 中,我了解到这个时代即将结束。我们正迈入 Agent Engineering 的时代。

确定性代码 vs. 非确定性代理

传统软件是确定性的:1 + 1 永远等于 2
而 AI 代理是非确定性的。即使两次运行完全相同的提示,也可能产生完全不同的轨迹。

  • 代理可能偏离航道(幻觉)。
  • 它可能在原地打转耗尽所有燃料(循环)。
  • 它可能遇到小行星带(API 超时)。

正因为如此,我们必须停止仅仅为 输出(黑盒)进行优化,而转而为 轨迹(玻璃盒)进行优化。

任务控制框架

为了应对不可预测性,你需要一个 “Mission Control” 框架。从原型到生产需要覆盖四大支柱的遥测数据,以确保任务成功。

有效性(我们登陆火星了吗?)

一个二元成功指标。探测器真的着陆了吗?在代理的语境下:它是否实现了用户的意图? 一个礼貌、健谈却未能预订机票的代理就是一次失败的任务。

效率(燃料管理)

你是进入轨道,还是在发射台上把整个油箱烧光?效率衡量你的 “燃烧率”——令牌、延迟和步骤。如果你的代理用了 50 条 “思考” 以及 2.00 美元的 API 费用来回答一个简单的 “Hello”,那就需要中止发射。

鲁棒性(结构完整性)

太空环境恶劣。API 会失效。数据会混乱。一个鲁棒的代理拥有备份系统。当它遇到错误时,不应崩溃或产生虚假现实——而应纠正航向、重试或发出求助信号。

安全性(遏制协议)

安全性确保你的代理遵守 “飞行走廊”(防护栏)。它绝不能泄露数据、接受提示注入或执行有害指令。

遥测为王

在一次太空任务中,你不会等宇航员返回后才问 “飞行如何?” 你会每秒监控屏幕。这就是 可观测性

  • 日志 显示事件。
  • 追踪 显示因果链(为什么会这样)。
  • 指标 显示健康状态。

结论

我们不再仅仅是 “编码” 指令;我们在指挥自主系统。地面正从创造转向控制。

如果你想构建下一代软件,别再构建漫无目的漂流的聊天机器人。开始构建带有制导系统的火箭吧。

Back to Blog

相关文章

阅读更多 »