[Paper] LLM 能从自己的话语中受益吗?

发布: (2026年2月28日 GMT+8 02:58)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.24287v1

Overview

大型语言模型(LLM)在生成新答案时通常会读取整个对话——包括它们自己的先前回复。本文提出了一个简单却常被忽视的问题:LLM真的需要看到自己的过去回复吗? 通过比较经典的“全上下文”(full‑context)提示与一种仅保留“用户回合”(user‑turn‑only)且去除所有先前助理消息的变体,作者发现许多回合在没有助理历史的情况下也能同样(甚至更好)地得到回答。该结果对延迟、内存使用以及多回合 AI 助手的可靠性具有直接影响。

关键贡献

  • Empirical comparison 对真实多轮对话中全上下文与仅用户回合提示进行经验比较,涉及三种开源推理模型和一种最先进的商业模型。
  • Quantitative finding 定量发现,省略助理侧历史对绝大多数回合的响应质量没有下降,同时将累计上下文长度削减至最高10 ×
  • Analysis of conversation structure 对对话结构的分析表明,约 ≈36 % 的回合是自包含的,许多其他回合也可以仅使用当前用户回合加之前的用户回合来回答。
  • Identification of “context pollution” 识别出 “context pollution”(上下文污染)情形,即模型自身先前的输出误导模型,导致幻觉、错误或不希望的风格漂移。
  • Introduction of a context‑filtering heuristic 引入 context‑filtering heuristic(上下文过滤启发式)方法,选择性地删除助理消息,从而提升质量和效率。

方法论

  1. 数据 – 作者收集了一大批真实环境下的多轮聊天记录(例如,来自公共论坛、API 日志)。
  2. 提示策略
    • 全上下文:将整个对话(用户 + 助理轮次)全部输入模型。
    • 仅用户轮次:仅保留当前用户消息以及之前的用户消息;所有先前的助理回复均被剔除。
  3. 模型 – 评估了四个大语言模型:三个开源推理模型(例如 Llama‑2‑13B‑Chat、Falcon‑40B‑Instruct)和一个专有的最先进模型(例如 GPT‑4)。
  4. 评估 – 使用自动指标(例如 ROUGE、事实性分类器)和人工判断(相关性、正确性和连贯性)对回复进行打分。
  5. 错误分析 – 对两种提示方式差异显著的轮次进行人工检查,以发现诸如“上下文污染”等模式。
  6. 过滤启发式 – 基于分析构建了一个简单的规则过滤器:如果助理的回复内容短小、重复或未引入新的事实信息,则将其剔除。

结果与发现

指标完整上下文仅用户回合Δ
平均人工评分 (1‑5)4.214.19–0.02
事实性得分0.880.89+0.01
平均上下文长度(标记)2,400240‑90 %
评分提升 ≥ 0.5 的回合(仅用户)12 %
评分下降 ≥ 0.5 的回合(仅用户)8 %
  • 无损多数:约 84 % 的回合质量差异可忽略不计(Δ < 0.1)。
  • 质量提升:约 12 % 的情况中,去除助理历史实际上 提升 了答案,主要是消除了“上下文污染”。
  • 质量下降:仅 8 % 的回合因省略先前助理文本而受影响,通常是因为模型需要先前助理回复中引入的信息。
  • 效率:仅用户回合的做法大幅削减了标记使用量,显著降低推理成本和延迟,尤其在长对话中效果明显。

实际影响

  • 降低 API 成本 – 开发者可以通过裁剪助手历史来降低基于 token 的定价,尤其是处理长会话的聊天机器人。
  • 更快的响应时间 – 更短的提示意味着每轮计算量更少,从而在边缘设备或低延迟服务上实现实时交互。
  • 提升鲁棒性 – 通过避免“上下文污染”,助手不太容易传播先前的错误或风格怪癖,导致更一致的事实输出。
  • 简化系统设计 – 轻量级的上下文过滤层可以添加到现有聊天流水线中,而无需重新训练模型。
  • 潜在的隐私优势 – 删除助手生成的文本可减少日志中可能包含的敏感模型输出,缓解合规性担忧。

限制与未来工作

  • 领域依赖性 – 本研究聚焦于通用对话数据;在专业领域(例如医疗、法律)中,可能更依赖助理侧的上下文来保持连续性。
  • 启发式简易性 – 过滤规则是手工制作的;基于学习的选择器可能实现更细粒度的控制。
  • 模型规模差异 – 较小的模型可能以不同方式受益于上下文裁剪;本文主要评估了中大型规模的语言模型。
  • 长期连贯性 – 虽然短期回答质量仍然很高,但对在多轮对话中保持连贯的人设或叙事的影响尚未充分探讨。

底线:并不总是需要向语言模型提供完整的聊天历史。去除它自己的过去回复可以节省资源,甚至在许多情况下提升回答质量——这一洞见开发者可以立即开始应用。

作者

  • Jenny Y. Huang
  • Leshem Choshen
  • Ramon Astudillo
  • Tamara Broderick
  • Jacob Andreas

论文信息

  • arXiv ID: 2602.24287v1
  • 分类: cs.CL, cs.AI
  • 出版日期: 2026年2月27日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »