超越聊天机器人:我们能给 AI 代理一个“撤销”按钮吗?探索 Gorilla GoEx 🦍
发布: (2026年3月1日 GMT+8 02:01)
3 分钟阅读
原文: Dev.to
Source: Dev.to
从聊天机器人到自主代理
大型语言模型(LLM)的世界正在转变。我们正从只会“聊天”的简单聊天机器人,转向能够真正做事的自主代理——发送 Slack 消息、管理文件、调用 API 等等。
但存在一个巨大的问题:信任。我们如何阻止 LLM 发送错误邮件或删除关键数据库条目?
GoEx:事后范式
事后验证
GoEx(Gorilla Execution Engine)不在执行前对代码进行过度分析,而是让 LLM 先执行动作,然后为人类提供两条强大的安全网:
- 撤销功能 – 如果 LLM 发送了你不满意的 Slack 消息或创建了文件,你可以直接恢复到之前的状态。
- 损害限制 – 通过限制权限来缩小“冲击半径”(例如,LLM 可以读取邮件,但在没有额外授权的情况下不能发送邮件)。
缺失的环节:“社会损害”缺口
问题 – 技术可逆性 ≠ 社会可逆性
如果 LLM 发送了一条敏感的 Slack 消息,收件人在几秒钟内阅读了它,事后删除该消息并不能解决问题。信息泄露已经发生。
我的观点:走向语义损害限制
为弥合这一差距,我们需要一个 语义损害限制 层,为技术防护加入社会感知:
- 基于风险的缓冲 – 根据情感分析或其他风险信号延迟高风险消息的发送。
- 上下文感知的限流 – 当某个动作被认定为社会上不可逆时,自动切换回“事前”验证。
资源
- 📄 Paper:
- 💻 GitHub: