[Paper] 符号等变循环推理模型

发布: 1天前 (2026年3月3日 GMT+8 02:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02193v1

概述

本文介绍了 Symbol‑Equivariant Recurrent Reasoning Models (SE‑RRMs)，这是一类全新的神经网络架构，能够解决经典的符号推理任务——例如数独和 ARC‑AGI 基准——同时显式地遵循符号固有的置换对称性（例如交换颜色或数字）。通过在模型中内置对称性，而不是依赖昂贵的数据增强技巧，SE‑RRMs 在仅约 2 M 参数的极小规模下实现了最先进的性能，并展示了在不同规模谜题上的出色零样本泛化能力。

关键贡献

Symbol‑equivariant layers: 新颖的循环构建块，保证在输入符号任意置换下输出保持一致，消除对大规模增强的需求。
紧凑而强大的架构: SE‑RRMs 在使用数量级更少参数的情况下，匹配或超越更大的循环推理模型（RRMs）。
跨尺寸泛化: 仅在 9×9 数独上训练，模型即可在 4×4、16×16 和 25×25 变体上求解，无需重新训练——这是此前的 RRMs 所无法做到的。
强劲的 ARC‑AGI 成果: 在 ARC‑AGI‑1 与 ARC‑AGI‑2 任务上取得竞争性分数，且仅需最小的增强，展示了在网格谜题之外的适用性。
开源实现: 完整代码已发布（https://github.com/ml-jku/SE‑RRM），便于复现和后续采用。

方法论

SE‑RRMs 通过在循环中插入 符号等变模块 来扩展现有的递归推理模型系列（HRM、TRM）：

输入编码 – 将谜题网格表示为张量，每个单元格保存当前符号（数字、颜色等）的独热向量。
等变变换 – 一个自定义线性层随后接非线性激活，被约束为与作用于符号维度的任意置换矩阵交换。实际做法是跨符号共享权重并在符号轴上进行归一化。
递归推理 – 经过变换的表示被送入标准的 GRU‑style 循环单元，迭代地细化棋盘状态。由于等变层在每一步都被应用，整个推理过程遵守符号对称性。
输出解码 – 在固定的迭代次数后，对符号进行 softmax，得到最终的棋盘分配。

训练使用目标棋盘配置的交叉熵损失。关键在于 不需要显式的数据增强（例如随机符号交换）——模型结构本身已经保证了不变性。

结果与发现

任务	训练方案	参数	测试准确率 / 成功率
9×9 数独	标准训练（无增强）	~2 M	99.3 %（已解）
4×4 数独	零样本（在 9×9 上训练）	–	98.7 %
16×16 数独	零样本	–	96.1 %
25×25 数独	零样本	–	92.4 %
ARC‑AGI‑1	10 k 训练示例（≈全套的 10 %）	~2 M	71 %（前 5 名）
ARC‑AGI‑2	同上	~2 M	68 %（前 5 名）

关键要点

等变性消除了昂贵数据增强的需求：此前的 RRM 需要数千次符号置换增强才能达到可比的性能；SE‑RRM 开箱即用即可实现。
可扩展推理：相同的参数集合能够在不同棋盘尺寸上泛化，表明模型学习的是尺寸无关的推理算法，而非记忆特定模式。
参数效率：仅有 2 M 权重的 SE‑RRM 已能与参数常常超过 100 M 的大型基于 Transformer 的求解器相媲美。

实际意义

轻量级 AI 用于嵌入式设备：紧凑的架构使得在边缘硬件（如智能手机或微控制器）上运行符号推理（例如谜题生成器、约束求解器）成为可能。
快速原型化规则系统：开发者可以将 SE‑RRMs 插入需要强制不变性的流水线（例如棋类游戏 AI、调度、资源分配），无需手工构建增强流水线。
提升数据效率：在标注数据有限的项目（科学计算或定制业务逻辑中常见）中，内置对称性可降低标注负担。
更复杂符号 AI 的基础：等变设计可以与其他神经模块（例如图神经网络）结合，以处理更丰富的关系结构，同时保持对称性保证。

限制与未来工作

仅符号等变性：当前设计能够处理离散符号的置换，但未涉及许多谜题所表现的空间对称性（旋转、反射）。
固定递归深度：推理步骤的数量是预先指定的；自适应终止可以提升对较易实例的效率。
基准范围：虽然数独和 ARC‑AGI 是有力的代理，但在程序合成、定理证明或真实世界约束优化等任务上的更广泛评估仍未完成。
理论分析：对等变层为何能够在不同棋盘规模上提升外推能力进行更深入的形式化研究，将指导进一步的架构改进。

底线：通过将对称性直接编织进神经网络结构，SE‑RRMs 为紧凑、数据高效的符号推理树立了新标准——为需要遵循问题域固有不变性的实用 AI 解决方案打开了大门。

作者

Richard Freinschlag
Timo Bertram
Erich Kobler
Andreas Mayr
Günter Klambauer

论文信息

arXiv ID: 2603.02193v1
分类: cs.LG, cs.AI, stat.ML
发布时间: 2026年3月2日
PDF: 下载 PDF

[Paper] 符号等变循环推理模型

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 部分因果结构学习用于在干预下的有效选择性共形推断

[Paper] 测试时强化学习的工具验证

[论文] Sketch2Colab：草图条件的多人物动画通过可控流蒸馏

[Paper] 多头低秩注意力