[论文] 将语言建模为思维序列

发布: 1个月前 (2026年1月1日 GMT+8 02:24)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.25026v1

Overview

Thought Gestalt (TG) 模型通过为每个句子引入第二个更高层次的“思维”表示，重新构想了大型语言模型（LLMs）处理文本的方式。通过将 token 级别的生成与句子级别嵌入的递归记忆相结合，TG 实现了更高的数据效率和对关系信息更一致的处理——解决了标准 Transformers 中众所周知的脆弱性问题，如“反转诅咒”。

关键贡献

Dual‑level architecture – 一个递归 Transformer，同时使用相同的参数学习 token 嵌入和紧凑的句子级“思维”向量。
Cross‑attention memory – 每个新句子都会关注不断增长的先前句子表示记忆，从而在不导致模型规模爆炸的情况下实现长程上下文 grounding。
Unified training objective – 模型仅使用下一个 token 的交叉熵进行训练；梯度会通过记忆向后传播，自动塑造思维向量的质量。
Efficiency gains – 实证扩展表明 TG 在匹配或超越 GPT‑2 基准的同时，仅需约 5‑8 % 更少的数据以及约 33‑42 % 更少的参数即可达到可比的损失。
Improved relational reasoning – TG 在父子倒置探测上降低错误，展示了对跨句实体关系更稳健的处理能力。

方法论

双层表示
- Token 层：与标准 Transformer 解码器相同，一次生成一个 token。
- Thought 层：在一句话结束后，模型将该句子的 token 隐状态聚合为一个 “thought” 向量（句子意义的整体感知）。
循环记忆
- Thought 向量以 FIFO（先进先出）方式存入记忆中。
- 在生成下一句时，token 解码器会对所有先前的 thought 向量进行交叉注意，从而在不重新遍历每个 token 的情况下检索高级上下文。
参数共享
- 同一组 Transformer 层同时产生 token 和 thought 的嵌入，保持参数数量低。
训练
- 标准的 next‑token 交叉熵损失。
- 由于每个 thought 向量的计算图被保留，来自后续 token 的损失梯度会通过交叉注意传播回去，自动改进早期的 thought 表示。
扩展实验
- TG 在语言建模语料上与规模相当的 GPT‑2 进行基准测试。
- 通过拟合损失曲线，估计两大模型族在数据和参数上的“等价性”。

结果与发现

指标	TG（基准规模）	匹配的 GPT‑2
每标记损失	0.92	0.97
相同损失所需数据量	1×（基准）	~1.05‑1.08×
相同损失所需参数量	1×（基准）	~1.33‑1.42×
反转诅咒错误（父子探测）	12 %	23 %

效率：TG 在达到相同困惑度时，大约使用 5‑8 % 更少的训练数据，参数量最多可减少 42 %。
关系一致性：模型的思维记忆帮助在句子之间保持实体角色，将反转诅咒错误降低约一半。
可扩展性：损失缩放曲线表明 TG 的优势在模型规模增大时仍然存在，暗示在更大部署中有利的回报。

实际影响

更紧凑的 LLM – 开发者可以使用更小的模型实现 GPT‑2 级别的质量，降低 GPU 内存占用和推理延迟——这对边缘或实时应用至关重要。
更好的长程连贯性 – 生成多句叙事的应用（例如聊天机器人、故事生成器、文档助手）将受益于持久的“思考”记忆，从而减少矛盾并提升实体跟踪。
数据高效的微调 – 由于 TG 学习更丰富的句子级抽象，它可以用更少的示例适应新领域，降低特定领域语言模型的成本。
改进的推理探测 – 逆转诅咒错误的减少表明 TG 可以作为更强大的骨干，用于需要关系推理的下游任务，例如知识库问答或指令遵循。

限制与未来工作

Memory growth – 思想记忆随句子数量线性增长，这在超长文档中可能成为瓶颈；未来工作可以探索层次化或压缩记忆方案。
Evaluation scope – 本文关注语言模型损失和单一关系探针；需要更广泛的基准（例如 GLUE、MMLU）来验证泛化能力。
Sentence boundary reliance – TG 假设有明确的句子分界；在没有显式标点的嘈杂或流式文本中处理仍是一个未解决的挑战。
Integration with existing pipelines – 将 TG 适配到大规模预训练流水线（例如跨多 GPU 的分布式训练）需要工程工作，以高效管理交叉注意力记忆。

作者

Nasim Borazjanizadeh
James McClelland

论文信息

arXiv ID: 2512.25026v1
分类: cs.CL, cs.AI
出版日期: 2025年12月31日
PDF: 下载 PDF

[论文] 将语言建模为思维序列

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 理性几何：有效数学推理的谱特征

[Paper] 用于大语言模型持续适应的 Memory Bank Compression

[Paper] 探索大语言模型在主观跨度识别任务上的性能

[Paper] TeleDoCTR：面向电信的领域特定与上下文故障排除