[Paper] 异步推理：免训练交互式思考 LLMs

发布: 1个月前 (2025年12月12日 GMT+8 02:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10931v1

概览

论文 “Asynchronous Reasoning: Training‑Free Interactive Thinking LLMs” 展示了如何让大型语言模型（LLM）在思考的同时进行对话——就像人类在思索问题的同时还能听取新信息一样。作者利用旋转位置嵌入（rotary positional embeddings）的特性，将任何具备推理能力的 LLM 转变为异步代理，使其能够在几秒内开始生成响应，而不必等待数分钟完成完整的链式思考（CoT）计算。

主要贡献

无需训练的异步推理：提出一种方法，将已有的支持 CoT 的 LLM 转换为能够同时思考、倾听并输出的代理，无需额外微调。
旋转嵌入技巧：利用旋转位置嵌入的旋转不变性，实现对内部推理流的“暂停”，并在运行时即时插入新的用户 token。
实时性能提升：将首次非思考 token 的延迟从数分钟降低至 ≤ 5 秒，在基准任务上实现 6‑11 倍的整体响应时间缩短。
广泛评估：在数学（MATH、GSM8K）、常识（CommonsenseQA）和安全关键推理（TruthfulQA、SafeRLHF）数据集上进行实验，显示出与标准 CoT 相当的准确率，同时速度更快。
开源原型：提供轻量实现，可直接嵌入任何使用旋转嵌入的 Transformer‑based LLM（如 LLaMA‑2、Mistral）。

方法论

基线 CoT 提示 – 首先让模型生成一个“思考”序列（例如 “Let’s think step‑by‑step…”），随后给出最终答案。
旋转嵌入拆分 – 旋转嵌入将 token 位置编码为复数旋转。作者发现，将 token 位置旋转 2π 的整数倍不会改变其表示。通过在每个“思考” token 后插入一个虚拟旋转偏移，实际上冻结了模型的内部状态，同时仍可追加新的输入 token。
异步循环 –
- 模型开始生成 CoT 流。
- 每生成一个 token，系统检查是否有新用户输入。
- 若有新输入，则使用相同的旋转偏移进行嵌入，使模型将其视为发生在同一逻辑时间步，从而推理链得以无缝继续。
解码策略 – 对思考 token 使用混合 greedy‑top‑p 采样（保持链的连贯性），对最终答案使用更激进的采样，以在不牺牲质量的前提下降低延迟。

该技巧 不需要额外的训练数据，只需在模型前向传播周围加一个小包装器。

结果与发现

基准任务	标准 CoT（延迟）	异步（延迟）	准确率变化
GSM8K（数学）	~120 s/查询	≤ 5 s	+0.2 %
MATH（高难度数学）	180 s	≤ 6 s	–0.1 %
CommonsenseQA	30 s	≤ 4 s	+0.3 %
TruthfulQA（安全）	45 s	≤ 5 s	+0.1 %

延迟：首次非思考 token 出现时间 ≤ 5 秒，提升 6‑11 倍。
准确率：与基线 CoT 相差 ±0.3 %，表明异步交叉不会削弱推理质量。
鲁棒性：该方法在不同模型规模（7B‑70B）和不同旋转嵌入实现上均有效，具备广泛适用性。

实际意义

语音助手与聊天机器人：用户可以在模型仍在“思考”时开始说话，实现真正的交互式体验（例如在数学解释过程中插入追问）。
嵌入式/边缘设备：缩短计算窗口降低功耗，使具备推理能力的 LLM 在移动或物联网硬件上可行。
安全关键系统：更快的“思考”循环意味着模型可以在最终答案前实时加入安全检查（如内容过滤），提升可靠性。
开发者工具：轻量包装器可通过单行代码加入现有推理管道（如 LangChain、Llama.cpp），快速原型化异步代理。
人机协作工作流：在协同编码或数据分析工具中，开发者可以在模型继续链式思考时提供增量提示，加速调试与探索。

局限性与未来工作

旋转嵌入依赖：该技巧仅适用于使用旋转位置编码的模型；采用绝对或学习式位置嵌入的模型需另寻方案。
内存开销：在保持冻结推理状态的同时接受新 token 会略微增加 GPU 内存占用，对超大模型可能成为瓶颈。
复杂对话：当前实现假设单一、线性的思考流；处理分支对话或多轮纠正可能需要更复杂的状态管理。
评估范围：基准主要聚焦单问任务，真实场景下的多模态或长篇交互仍待验证。

未来研究方向包括：将该方法扩展到其他位置编码方案、为多轮对话引入动态记忆缓冲、以及探索混合训练，使模型显式学习处理异步输入，以实现更流畅的人‑LLM 交互。

作者

George Yakushev
Nataliia Babina
Masoud Vahid Dastgerdi
Vyacheslav Zhdanovskiy
Alina Shutova
Denis Kuznedelev

论文信息

arXiv ID: 2512.10931v1
分类: cs.LG, cs.CL
发布日期: 2025 年 12 月 11 日
PDF: Download PDF

[Paper] 异步推理：免训练交互式思考 LLMs

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

[Paper] 可视化黑盒语言模型的 token 重要性