[Paper] 异步推理:免训练交互式思考 LLMs

发布: (2025年12月12日 GMT+8 02:57)
7 min read
原文: arXiv

Source: arXiv - 2512.10931v1

概览

论文 “Asynchronous Reasoning: Training‑Free Interactive Thinking LLMs” 展示了如何让大型语言模型(LLM)在思考的同时进行对话——就像人类在思索问题的同时还能听取新信息一样。作者利用旋转位置嵌入(rotary positional embeddings)的特性,将任何具备推理能力的 LLM 转变为 异步 代理,使其能够在几秒内开始生成响应,而不必等待数分钟完成完整的链式思考(CoT)计算。

主要贡献

  • 无需训练的异步推理:提出一种方法,将已有的支持 CoT 的 LLM 转换为能够同时思考、倾听并输出的代理,无需额外微调。
  • 旋转嵌入技巧:利用旋转位置嵌入的旋转不变性,实现对内部推理流的“暂停”,并在运行时即时插入新的用户 token。
  • 实时性能提升:将首次非思考 token 的延迟从数分钟降低至 ≤ 5 秒,在基准任务上实现 6‑11 倍的整体响应时间缩短。
  • 广泛评估:在数学(MATH、GSM8K)、常识(CommonsenseQA)和安全关键推理(TruthfulQA、SafeRLHF)数据集上进行实验,显示出与标准 CoT 相当的准确率,同时速度更快。
  • 开源原型:提供轻量实现,可直接嵌入任何使用旋转嵌入的 Transformer‑based LLM(如 LLaMA‑2、Mistral)。

方法论

  1. 基线 CoT 提示 – 首先让模型生成一个“思考”序列(例如 “Let’s think step‑by‑step…”),随后给出最终答案。
  2. 旋转嵌入拆分 – 旋转嵌入将 token 位置编码为复数旋转。作者发现,将 token 位置旋转 2π 的整数倍不会改变其表示。通过在每个“思考” token 后插入一个 虚拟 旋转偏移,实际上 冻结 了模型的内部状态,同时仍可追加新的输入 token。
  3. 异步循环
    • 模型开始生成 CoT 流。
    • 每生成一个 token,系统检查是否有新用户输入。
    • 若有新输入,则使用 相同 的旋转偏移进行嵌入,使模型将其视为发生在同一逻辑时间步,从而推理链得以无缝继续。
  4. 解码策略 – 对思考 token 使用混合 greedy‑top‑p 采样(保持链的连贯性),对最终答案使用更激进的采样,以在不牺牲质量的前提下降低延迟。

该技巧 不需要额外的训练数据,只需在模型前向传播周围加一个小包装器。

结果与发现

基准任务标准 CoT(延迟)异步(延迟)准确率变化
GSM8K(数学)~120 s/查询≤ 5 s+0.2 %
MATH(高难度数学)180 s≤ 6 s–0.1 %
CommonsenseQA30 s≤ 4 s+0.3 %
TruthfulQA(安全)45 s≤ 5 s+0.1 %
  • 延迟:首次非思考 token 出现时间 ≤ 5 秒,提升 6‑11 倍。
  • 准确率:与基线 CoT 相差 ±0.3 %,表明异步交叉不会削弱推理质量。
  • 鲁棒性:该方法在不同模型规模(7B‑70B)和不同旋转嵌入实现上均有效,具备广泛适用性。

实际意义

  • 语音助手与聊天机器人:用户可以在模型仍在“思考”时开始说话,实现真正的交互式体验(例如在数学解释过程中插入追问)。
  • 嵌入式/边缘设备:缩短计算窗口降低功耗,使具备推理能力的 LLM 在移动或物联网硬件上可行。
  • 安全关键系统:更快的“思考”循环意味着模型可以在最终答案前实时加入安全检查(如内容过滤),提升可靠性。
  • 开发者工具:轻量包装器可通过单行代码加入现有推理管道(如 LangChain、Llama.cpp),快速原型化异步代理。
  • 人机协作工作流:在协同编码或数据分析工具中,开发者可以在模型继续链式思考时提供增量提示,加速调试与探索。

局限性与未来工作

  • 旋转嵌入依赖:该技巧仅适用于使用旋转位置编码的模型;采用绝对或学习式位置嵌入的模型需另寻方案。
  • 内存开销:在保持冻结推理状态的同时接受新 token 会略微增加 GPU 内存占用,对超大模型可能成为瓶颈。
  • 复杂对话:当前实现假设单一、线性的思考流;处理分支对话或多轮纠正可能需要更复杂的状态管理。
  • 评估范围:基准主要聚焦单问任务,真实场景下的多模态或长篇交互仍待验证。

未来研究方向包括:将该方法扩展到其他位置编码方案、为多轮对话引入动态记忆缓冲、以及探索混合训练,使模型显式学习处理异步输入,以实现更流畅的人‑LLM 交互。

作者

  • George Yakushev
  • Nataliia Babina
  • Masoud Vahid Dastgerdi
  • Vyacheslav Zhdanovskiy
  • Alina Shutova
  • Denis Kuznedelev

论文信息

  • arXiv ID: 2512.10931v1
  • 分类: cs.LG, cs.CL
  • 发布日期: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »