提示工程的终结:进入 Agent 控制时代
Source: Dev.to
在过去的两年里,prompt engineering 是主要的热点。它有趣、混乱且富有创造性。但虽然它有一定的结构,结果却很少能达到足够一致的水平来让我们满意。
在 Google & Kaggle AI Agents Intensive 中,我了解到这个时代即将结束。我们正迈入 Agent Engineering 的时代。
确定性代码 vs. 非确定性代理
传统软件是确定性的:1 + 1 永远等于 2。
而 AI 代理是非确定性的。即使两次运行完全相同的提示,也可能产生完全不同的轨迹。
- 代理可能偏离航道(幻觉)。
- 它可能在原地打转耗尽所有燃料(循环)。
- 它可能遇到小行星带(API 超时)。
正因为如此,我们必须停止仅仅为 输出(黑盒)进行优化,而转而为 轨迹(玻璃盒)进行优化。
任务控制框架
为了应对不可预测性,你需要一个 “Mission Control” 框架。从原型到生产需要覆盖四大支柱的遥测数据,以确保任务成功。
有效性(我们登陆火星了吗?)
一个二元成功指标。探测器真的着陆了吗?在代理的语境下:它是否实现了用户的意图? 一个礼貌、健谈却未能预订机票的代理就是一次失败的任务。
效率(燃料管理)
你是进入轨道,还是在发射台上把整个油箱烧光?效率衡量你的 “燃烧率”——令牌、延迟和步骤。如果你的代理用了 50 条 “思考” 以及 2.00 美元的 API 费用来回答一个简单的 “Hello”,那就需要中止发射。
鲁棒性(结构完整性)
太空环境恶劣。API 会失效。数据会混乱。一个鲁棒的代理拥有备份系统。当它遇到错误时,不应崩溃或产生虚假现实——而应纠正航向、重试或发出求助信号。
安全性(遏制协议)
安全性确保你的代理遵守 “飞行走廊”(防护栏)。它绝不能泄露数据、接受提示注入或执行有害指令。
遥测为王
在一次太空任务中,你不会等宇航员返回后才问 “飞行如何?” 你会每秒监控屏幕。这就是 可观测性。
- 日志 显示事件。
- 追踪 显示因果链(为什么会这样)。
- 指标 显示健康状态。
结论
我们不再仅仅是 “编码” 指令;我们在指挥自主系统。地面正从创造转向控制。
如果你想构建下一代软件,别再构建漫无目的漂流的聊天机器人。开始构建带有制导系统的火箭吧。