[Paper] 大型语言模型中的递归概念演化与组合推理
发布: (2026年2月18日 GMT+8 01:01)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.15725v1
概述
大型语言模型(LLM)在许多推理任务上已经表现出惊人的能力,但在需要组合多个概念时仍会出现困难——比如解决多步数学问题或回答细致的科学问题。论文 Recursive Concept Evolution for Compositional Reasoning in Large Language Models 介绍了一种新的推理时技术,Recursive Concept Evolution (RCE),它使冻结的 LLM 能够在运行时重塑自身的内部表征空间,在现有表征不足时创建全新的“概念子空间”。
关键贡献
- 动态表示适配: RCE 在推理过程中检测到模型的潜在空间缺乏解决特定问题所需的抽象时,会生成低秩概念子空间。
- 最小描述长度(MDL)选择: 仅在新子空间能够提供更紧凑的数据解释时才保留它们,从而防止子空间无限增长。
- 协同合并与巩固: 兼容的子空间会被合并,所有活跃子空间在稳定性约束下共同优化,保持基础模型的原有知识。
- 即插即用集成: 作者展示了一个可直接套用在开源 Mistral‑7B 模型上的包装器,无需对底层权重进行再训练。
- 在困难组合基准上的实证提升: RCE 在 ARC‑AGI‑2 上实现了 12‑18 % 的绝对提升,在 GPQA 与 BBH 上提升 8‑14 %,并显著降低了 MATH 与 HLE 中与深度相关的错误。
方法论
- 检测不足 – 当模型处理提示时,轻量监视器观察激活模式。如果当前表示的方差或重构误差超过阈值,系统会标记为“概念缺口”。
- 生成子空间 – 初始化一个小的、可训练的矩阵(低秩)来捕获缺失的抽象。该矩阵与冻结的 transformer 层并存,仅在当前推理阶段更新。
- 基于 MDL 的剪枝 – 通过子空间压缩表示的程度(即降低描述长度)来评估每个候选子空间。未提升 MDL 分数的子空间被舍弃。
- 合并与巩固 – 当两个活跃子空间解释了问题的重叠方面时,它们会合并为单一子空间。随后所有活跃子空间在约束损失下共同优化,该损失惩罚偏离原始隐藏状态,确保模型保持稳定。
- 递归应用 – 该过程在每一步推理(例如,每个 chain‑of‑thought token)重复,使模型能够随着问题深入迭代地细化内部概念。
所有这些 无需微调基础模型权重,使 RCE 成为推理时的增强,而非全新的训练方案。
结果与发现
| Benchmark | Baseline (Mistral‑7B) | + RCE | Δ (absolute %) |
|---|---|---|---|
| ARC‑AGI‑2 | 38 % | 56 % | +12‑18 |
| GPQA | 45 % | 59 % | +8‑14 |
| BBH | 52 % | 66 % | +8‑14 |
| MATH (depth‑error) | 31 % | 38 % | ~7 % 错误率下降 |
| HLE | 34 % | 41 % | ~7 % 错误率下降 |
- 在多样化领域(科学、数学、逻辑)中持续获得提升,表明 RCE 并非仅对单一数据集过拟合。
- 深度导致的错误(随着推理步骤增加而累积的错误)显著下降,验证了递归演化概念的优势。
- 计算开销保持适度:低秩子空间仅增加约 10‑15 % 的 FLOPs,远低于全模型微调或强化学习循环的成本。
Practical Implications
- 插件推理优化器: 开发者可以在现有 LLM API(如 Mistral、Llama、Claude)之上加入 RCE 层,以提升在需要多步抽象的任务上的性能——比如自动定理证明、复杂代码合成或 AI 辅助的科学研究。
- 降低大规模微调的需求: 由于 RCE 在推理时起作用,团队可以避免昂贵的再训练流水线,同时仍能从给定的模型检查点中提取更多推理能力。
- 更好的组合式 AI 助手: 需要结合不同概念的聊天机器人(例如“解释量子算法的热力学意义”)可以受益于即时概念创建,从而产生更准确、更连贯的回复。
- 资源高效的扩展: 添加的子空间具有低秩特性,这意味着该技术能够良好地扩展到更大的模型;相同的框架可以以线性开销应用于 30 B 或 70 B 模型。
限制与未来工作
- 检测启发式是手工制作的: 当前基于方差的触发器可能会遗漏更微妙的表示差距;学习更细致的充分性预测器可能会提升子空间的生成效果。
- 稳定性约束调优: 在灵活性与漂移之间取得平衡需要仔细的超参数选择;自动调优方法仍是一个未解的问题。
- 基准范围: 虽然论文涵盖了多个组合套件,但真实世界的工业工作负载(例如大规模代码库、多模态推理)仍有待测试。
- 向多模态模型的扩展: 未来研究可以探索 RCE 风格的子空间是否能够为视觉‑语言或音频‑语言模型生成,从而实现跨模态的组合推理。
底线: 递归概念进化为开发者提供了一条实用的推理时路径,能够在现有 LLM 中解锁更深层的组合推理能力,而无需进行代价高昂的完整模型再训练。随着 AI 系统在复杂决策流程中日益融合,像 RCE 这样的工具可能会成为生产堆栈的标准组成部分。
作者
- Sarim Chaudhry
论文信息
- arXiv ID: 2602.15725v1
- 分类: cs.AI, cs.CL, cs.LG
- 出版日期: 2026年2月17日
- PDF: 下载 PDF