[Paper] 异步推理:免训练交互式思考 LLMs
发布: (2025年12月12日 GMT+8 02:57)
7 min read
原文: arXiv
Source: arXiv - 2512.10931v1
概览
论文 “Asynchronous Reasoning: Training‑Free Interactive Thinking LLMs” 展示了如何让大型语言模型(LLM)在思考的同时进行对话——就像人类在思索问题的同时还能听取新信息一样。作者利用旋转位置嵌入(rotary positional embeddings)的特性,将任何具备推理能力的 LLM 转变为 异步 代理,使其能够在几秒内开始生成响应,而不必等待数分钟完成完整的链式思考(CoT)计算。
主要贡献
- 无需训练的异步推理:提出一种方法,将已有的支持 CoT 的 LLM 转换为能够同时思考、倾听并输出的代理,无需额外微调。
- 旋转嵌入技巧:利用旋转位置嵌入的旋转不变性,实现对内部推理流的“暂停”,并在运行时即时插入新的用户 token。
- 实时性能提升:将首次非思考 token 的延迟从数分钟降低至 ≤ 5 秒,在基准任务上实现 6‑11 倍的整体响应时间缩短。
- 广泛评估:在数学(MATH、GSM8K)、常识(CommonsenseQA)和安全关键推理(TruthfulQA、SafeRLHF)数据集上进行实验,显示出与标准 CoT 相当的准确率,同时速度更快。
- 开源原型:提供轻量实现,可直接嵌入任何使用旋转嵌入的 Transformer‑based LLM(如 LLaMA‑2、Mistral)。
方法论
- 基线 CoT 提示 – 首先让模型生成一个“思考”序列(例如 “Let’s think step‑by‑step…”),随后给出最终答案。
- 旋转嵌入拆分 – 旋转嵌入将 token 位置编码为复数旋转。作者发现,将 token 位置旋转 2π 的整数倍不会改变其表示。通过在每个“思考” token 后插入一个 虚拟 旋转偏移,实际上 冻结 了模型的内部状态,同时仍可追加新的输入 token。
- 异步循环 –
- 模型开始生成 CoT 流。
- 每生成一个 token,系统检查是否有新用户输入。
- 若有新输入,则使用 相同 的旋转偏移进行嵌入,使模型将其视为发生在同一逻辑时间步,从而推理链得以无缝继续。
- 解码策略 – 对思考 token 使用混合 greedy‑top‑p 采样(保持链的连贯性),对最终答案使用更激进的采样,以在不牺牲质量的前提下降低延迟。
该技巧 不需要额外的训练数据,只需在模型前向传播周围加一个小包装器。
结果与发现
| 基准任务 | 标准 CoT(延迟) | 异步(延迟) | 准确率变化 |
|---|---|---|---|
| GSM8K(数学) | ~120 s/查询 | ≤ 5 s | +0.2 % |
| MATH(高难度数学) | 180 s | ≤ 6 s | –0.1 % |
| CommonsenseQA | 30 s | ≤ 4 s | +0.3 % |
| TruthfulQA(安全) | 45 s | ≤ 5 s | +0.1 % |
- 延迟:首次非思考 token 出现时间 ≤ 5 秒,提升 6‑11 倍。
- 准确率:与基线 CoT 相差 ±0.3 %,表明异步交叉不会削弱推理质量。
- 鲁棒性:该方法在不同模型规模(7B‑70B)和不同旋转嵌入实现上均有效,具备广泛适用性。
实际意义
- 语音助手与聊天机器人:用户可以在模型仍在“思考”时开始说话,实现真正的交互式体验(例如在数学解释过程中插入追问)。
- 嵌入式/边缘设备:缩短计算窗口降低功耗,使具备推理能力的 LLM 在移动或物联网硬件上可行。
- 安全关键系统:更快的“思考”循环意味着模型可以在最终答案前实时加入安全检查(如内容过滤),提升可靠性。
- 开发者工具:轻量包装器可通过单行代码加入现有推理管道(如 LangChain、Llama.cpp),快速原型化异步代理。
- 人机协作工作流:在协同编码或数据分析工具中,开发者可以在模型继续链式思考时提供增量提示,加速调试与探索。
局限性与未来工作
- 旋转嵌入依赖:该技巧仅适用于使用旋转位置编码的模型;采用绝对或学习式位置嵌入的模型需另寻方案。
- 内存开销:在保持冻结推理状态的同时接受新 token 会略微增加 GPU 内存占用,对超大模型可能成为瓶颈。
- 复杂对话:当前实现假设单一、线性的思考流;处理分支对话或多轮纠正可能需要更复杂的状态管理。
- 评估范围:基准主要聚焦单问任务,真实场景下的多模态或长篇交互仍待验证。
未来研究方向包括:将该方法扩展到其他位置编码方案、为多轮对话引入动态记忆缓冲、以及探索混合训练,使模型显式学习处理异步输入,以实现更流畅的人‑LLM 交互。
作者
- George Yakushev
- Nataliia Babina
- Masoud Vahid Dastgerdi
- Vyacheslav Zhdanovskiy
- Alina Shutova
- Denis Kuznedelev
论文信息
- arXiv ID: 2512.10931v1
- 分类: cs.LG, cs.CL
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF