[Paper] LLM 能从自己的话语中受益吗?
发布: (2026年2月28日 GMT+8 02:58)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.24287v1
Overview
大型语言模型(LLM)在生成新答案时通常会读取整个对话——包括它们自己的先前回复。本文提出了一个简单却常被忽视的问题:LLM真的需要看到自己的过去回复吗? 通过比较经典的“全上下文”(full‑context)提示与一种仅保留“用户回合”(user‑turn‑only)且去除所有先前助理消息的变体,作者发现许多回合在没有助理历史的情况下也能同样(甚至更好)地得到回答。该结果对延迟、内存使用以及多回合 AI 助手的可靠性具有直接影响。
关键贡献
- Empirical comparison 对真实多轮对话中全上下文与仅用户回合提示进行经验比较,涉及三种开源推理模型和一种最先进的商业模型。
- Quantitative finding 定量发现,省略助理侧历史对绝大多数回合的响应质量没有下降,同时将累计上下文长度削减至最高10 ×。
- Analysis of conversation structure 对对话结构的分析表明,约 ≈36 % 的回合是自包含的,许多其他回合也可以仅使用当前用户回合加之前的用户回合来回答。
- Identification of “context pollution” 识别出 “context pollution”(上下文污染)情形,即模型自身先前的输出误导模型,导致幻觉、错误或不希望的风格漂移。
- Introduction of a context‑filtering heuristic 引入 context‑filtering heuristic(上下文过滤启发式)方法,选择性地删除助理消息,从而提升质量和效率。
方法论
- 数据 – 作者收集了一大批真实环境下的多轮聊天记录(例如,来自公共论坛、API 日志)。
- 提示策略
- 全上下文:将整个对话(用户 + 助理轮次)全部输入模型。
- 仅用户轮次:仅保留当前用户消息以及之前的用户消息;所有先前的助理回复均被剔除。
- 模型 – 评估了四个大语言模型:三个开源推理模型(例如 Llama‑2‑13B‑Chat、Falcon‑40B‑Instruct)和一个专有的最先进模型(例如 GPT‑4)。
- 评估 – 使用自动指标(例如 ROUGE、事实性分类器)和人工判断(相关性、正确性和连贯性)对回复进行打分。
- 错误分析 – 对两种提示方式差异显著的轮次进行人工检查,以发现诸如“上下文污染”等模式。
- 过滤启发式 – 基于分析构建了一个简单的规则过滤器:如果助理的回复内容短小、重复或未引入新的事实信息,则将其剔除。
结果与发现
| 指标 | 完整上下文 | 仅用户回合 | Δ |
|---|---|---|---|
| 平均人工评分 (1‑5) | 4.21 | 4.19 | –0.02 |
| 事实性得分 | 0.88 | 0.89 | +0.01 |
| 平均上下文长度(标记) | 2,400 | 240 | ‑90 % |
| 评分提升 ≥ 0.5 的回合(仅用户) | – | 12 % | – |
| 评分下降 ≥ 0.5 的回合(仅用户) | – | 8 % | – |
- 无损多数:约 84 % 的回合质量差异可忽略不计(Δ < 0.1)。
- 质量提升:约 12 % 的情况中,去除助理历史实际上 提升 了答案,主要是消除了“上下文污染”。
- 质量下降:仅 8 % 的回合因省略先前助理文本而受影响,通常是因为模型需要先前助理回复中引入的信息。
- 效率:仅用户回合的做法大幅削减了标记使用量,显著降低推理成本和延迟,尤其在长对话中效果明显。
实际影响
- 降低 API 成本 – 开发者可以通过裁剪助手历史来降低基于 token 的定价,尤其是处理长会话的聊天机器人。
- 更快的响应时间 – 更短的提示意味着每轮计算量更少,从而在边缘设备或低延迟服务上实现实时交互。
- 提升鲁棒性 – 通过避免“上下文污染”,助手不太容易传播先前的错误或风格怪癖,导致更一致的事实输出。
- 简化系统设计 – 轻量级的上下文过滤层可以添加到现有聊天流水线中,而无需重新训练模型。
- 潜在的隐私优势 – 删除助手生成的文本可减少日志中可能包含的敏感模型输出,缓解合规性担忧。
限制与未来工作
- 领域依赖性 – 本研究聚焦于通用对话数据;在专业领域(例如医疗、法律)中,可能更依赖助理侧的上下文来保持连续性。
- 启发式简易性 – 过滤规则是手工制作的;基于学习的选择器可能实现更细粒度的控制。
- 模型规模差异 – 较小的模型可能以不同方式受益于上下文裁剪;本文主要评估了中大型规模的语言模型。
- 长期连贯性 – 虽然短期回答质量仍然很高,但对在多轮对话中保持连贯的人设或叙事的影响尚未充分探讨。
底线:并不总是需要向语言模型提供完整的聊天历史。去除它自己的过去回复可以节省资源,甚至在许多情况下提升回答质量——这一洞见开发者可以立即开始应用。
作者
- Jenny Y. Huang
- Leshem Choshen
- Ramon Astudillo
- Tamara Broderick
- Jacob Andreas
论文信息
- arXiv ID: 2602.24287v1
- 分类: cs.CL, cs.AI
- 出版日期: 2026年2月27日
- PDF: 下载 PDF