LLMs 在委托时会损坏你的文档

发布: 2天前 (2026年5月9日 GMT+8 16:44)

2 分钟阅读

Source: Hacker News

Abstract

大型语言模型（LLMs）即将颠覆知识工作，随着委托工作作为一种新交互范式的出现（例如 vibe coding）。委托需要信任——即期望 LLM 能忠实执行任务而不在文档中引入错误。

我们推出 DELEGATE-52，用于研究 AI 系统在委托工作流中的准备程度。DELEGATE-52 模拟需要跨 52 个专业领域（如编码、晶体学、音乐记谱）进行深入文档编辑的长时委托工作流。

我们对 19 种 LLM 进行的大规模实验表明，当前模型在委托过程中会导致文档退化：即使是前沿模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在长工作流结束时也会破坏平均 25 % 的文档内容，其他模型的退化更为严重。额外实验显示，使用代理工具并未提升在 DELEGATE-52 上的表现，且文档规模、交互时长或存在干扰文件时，退化程度会进一步加剧。

我们的分析表明，当前 LLM 是不可靠的委托者：它们会引入稀疏但严重的错误，悄然破坏文档，并在长时间交互中累积。

LLMs 在委托时会损坏你的文档

Abstract

相关文章

每日一个开源项目（61）：Hello-Agents — 从零构建 AI 原生代理的实用指南

第一代 — 独立模型 (2018–2022)

我们不教 AI 思考

超越向量搜索：为何 GraphRAG 是 LLMs 的下一个前沿