LLMs 在委托时会损坏你的文档

发布: (2026年5月9日 GMT+8 16:44)
2 分钟阅读

Source: Hacker News

Abstract

大型语言模型(LLMs)即将颠覆知识工作,随着委托工作作为一种新交互范式的出现(例如 vibe coding)。委托需要信任——即期望 LLM 能忠实执行任务而不在文档中引入错误。

我们推出 DELEGATE-52,用于研究 AI 系统在委托工作流中的准备程度。DELEGATE-52 模拟需要跨 52 个专业领域(如编码、晶体学、音乐记谱)进行深入文档编辑的长时委托工作流。

我们对 19 种 LLM 进行的大规模实验表明,当前模型在委托过程中会导致文档退化:即使是前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长工作流结束时也会破坏平均 25 % 的文档内容,其他模型的退化更为严重。额外实验显示,使用代理工具并未提升在 DELEGATE-52 上的表现,且文档规模、交互时长或存在干扰文件时,退化程度会进一步加剧。

我们的分析表明,当前 LLM 是不可靠的委托者:它们会引入稀疏但严重的错误,悄然破坏文档,并在长时间交互中累积。

0 浏览
Back to Blog

相关文章

阅读更多 »

我们不教 AI 思考

大多数人都是通过引导 AI 的思考来学习提示的: - “逐步思考。” - “下面是一个解决此问题的示例。” - “首先检查 A,然后比较 B,……”