[论文] 从多个思考者学习思考

发布: 1天前 (2026年4月28日 GMT+8 01:43)

9 分钟阅读

原文: arXiv

Source: arXiv - 2604.24737v1

Overview

一项新研究调查机器如何从 multiple “thinkers” 学习，这些思考者为同一问题提供逐步（Chain‑of‑Thought，或 CoT）解释。虽然单个思考者的 CoT 可以让某些学习任务变得容易，但作者展示，仅混合少数不同思考者的解释就能显著增加计算难度——除非我们采用巧妙的主动学习策略。这项工作将理论洞见与构建更稳健的 AI 系统的实用指南相结合，后者依赖于人类生成的推理痕迹。

关键贡献

混合 CoT 监督的硬度结果： 在标准密码学假设下，当 CoT 数据来自两个或更多系统性不同的思考者时，学习在计算上变得不可行，即使每个思考者的解释各自都是正确的。
主动学习算法： 提出一种 计算上高效 的主动学习程序，具备：
- 对每个思考者仅需 极少量 CoT 数据，且与目标误差 ε 无关。
- 需要 适度数量的思考者，规模为 log(1/ε)·log log(1/ε)。
- 利用丰富的 被动结果数据，样本复杂度约为 ~(1/ε)·polylog(1/ε)。
弥合“有 CoT 易” 与 “无 CoT 难” 之间的差距， 该差距在早期工作 (Joshi et al., 2025) 中被指出。
形式化现实的数据收集情景： 区分被动（观察式）和主动（查询式）获取推理轨迹，反映了许多真实世界数据集的组装方式。

方法论

Problem Setting
- Target concept class：在提供单个思考者的 CoT 时容易学习的函数，但仅有最终答案时则难以学习。
- Multiple thinkers：每个思考者为相同输入提供一个正确的、但可能不同的逐步解答。
Hardness Construction
- 作者在 CoT 轨迹中嵌入了一个cryptographic puzzle（基于单向函数）。
- 当混合两个或更多思考者的轨迹时，学习者必须同时满足冲突的约束，除非破解密码学假设，否则在计算上不可行。
Active Learning Algorithm
- Phase 1 – Thinker selection：查询一小组关于 ε 的对数规模的思考者，以获得representative子集的推理风格。
- Phase 2 – CoT acquisition：对每个被选中的思考者，要求提供constant数量的 CoT 示例（该常数不依赖于 ε）。
- Phase 3 – Passive data exploitation：使用大量仅包含最终结果（answer‑only）的示例来微调模型，利用标准的监督学习保证。
- 该算法交替进行label‑efficient querying和massive unlabeled data，实现了所述的样本复杂度界限。

结果与发现

方面	论文展示的内容
难度	仅有两位不同的思考者时，从混合的 CoT 学习变得密码学上难以解决——在假设标准单向函数的前提下，没有多项式时间算法能够成功。
主动学习效率	所提出的算法能够在任意期望误差 ε 下学习到： • `O(log(1/ε)·log log(1/ε))` 位思考者， • 每位思考者常数个 CoT 示例， • `~(1/ε)·polylog(1/ε)` 个最终结果示例。
与单思考者情况的比较	当仅有单一思考者的 CoT 可用时，学习所需的示例显著更少；论文精确量化了多思考者的存在如何改变整体局面。
经验验证（简要）	作者提供了合成实验，展示了混合两位思考者时运行时间的急剧上升，以及在规定的样本规模下主动算法的快速收敛。

实际意义

Dataset design for LLM fine‑tuning – 在策划 CoT 数据集（例如数学推理、代码演练）时，将许多标注者的解释混合在一起可能会无意中使下游学习问题变得更困难。一小批精挑细选的标注者可能比大规模、多样化的标注池更有效。
Active annotation pipelines – 与其让每位标注者为成千上万的示例编写完整的推理轨迹，开发者可以向少数标注者各请求几条轨迹，然后依赖大量仅答案的数据（收集成本低）。这可以降低成本，同时保持学习保证。
Robustness to “thinker bias” – 硬度结果警示，标注者之间的系统性差异（偏差）可能被对手利用来隐藏信息。理解这一点可以指导在人群外包 AI 训练中的偏差缓解策略。
Tooling for program synthesis – 在多个算法解决同一任务的情境下（例如不同的排序实现），研究表明有选择地公开少数代表性算法的轨迹数据足以让模型学习底层转换。
Security‑aware AI pipelines – 由于硬度证明依赖于密码学假设，它凸显了一个潜在攻击面：恶意构造的推理轨迹可能破坏学习。对 CoT 数据进行此类模式的审计成为新的安全考量。

限制与未来工作

密码学硬度是最坏情况 – 负面结果依赖于特意构造的谜题；真实世界的混合 CoT 数据可能并非如此具有对抗性。需要在自然数据集上进行实证研究。
主动学习假设有oracle访问 – 该算法假设能够按需查询特定的思考者，这在标注者是众包或不可用时可能不切实际。
对大语言模型的可扩展性 – 理论样本界限并不能直接转化为微调大规模 Transformer 的计算和内存需求。
作者提出的未来方向：
- 将分析扩展到 噪声或部分错误的 CoT（在人类标注中很常见）。
- 设计 自动思考者选择 方法，使其在没有显式 oracle 查询的情况下也能工作。
- 探索 可迁移性：在一个领域上训练的一小组思考者能否帮助另一个领域？

底线： 本文揭示了一种微妙但强大的权衡：更丰富的推理轨迹如果不加以合理管理，可能会损害学习效果。通过将适量的针对性 CoT 数据与大量仅答案示例相结合，开发者可以构建出在获得链式思考监督收益的同时，又不产生过高计算成本的模型。

作者

Nirmit Joshi
Roey Magen
Nathan Srebro
Nikolaos Tsilivis
Gal Vardi

论文信息

arXiv ID: 2604.24737v1
分类: cs.LG, cs.AI, cs.CC, stat.ML
出版时间: 2026年4月27日
PDF: Download PDF

[论文] 从多个思考者学习思考

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 递归多智能体系统

[Paper] 模型应多快投入监督？在 Tsallis 损失连续体上训练推理模型

[论文] Teacher Forcing 作为广义贝叶斯：混沌动力学中切换代理的优化几何不匹配

[Paper] 面向自然语言语义的函数式几何代数