[Paper] ReGuLaR：Variational Latent Reasoning Guided by Rendered Chain-of-Thought

发布: 1周前 (2026年1月31日 GMT+8 01:08)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.23184v1

概述

论文 ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain‑of‑Thought 解决了现代大语言模型（LLMs）的一个实际瓶颈：虽然 chain‑of‑thought（CoT）提示显著提升了推理准确性，但它也迫使模型生成冗长、逐 token 的解释，浪费计算资源。ReGuLaR 提出了一种紧凑的“潜在推理”方法，将推理过程压缩到低维潜在空间——然而，与之前的尝试不同，它使用 CoT 的可视化呈现作为指导信号，以保持压缩的忠实性。

关键贡献

Variational latent reasoning framework – 将推理视为 VAE 风格的潜在变量模型，从条件于前一步的后验中对每一步推理进行采样。
Rendered CoT guidance – 将显式文本推理链转换为图像，提取密集的视觉‑语义嵌入，并利用它们对潜在后验进行正则化，显著降低信息损失。
Multi‑modal reasoning boost – 通过利用视觉嵌入，ReGuLaR 不仅能够匹配 CoT 的性能，还能在多个基准上超越它。
Efficiency gains – 展示了在保持或提升答案质量的同时，令牌生成量最高可减少约 3 倍。
Open‑source implementation – 已发布代码和预训练检查点，以实现可复现性和社区实验。

方法论

Chain‑of‑Thought 渲染 – 在训练期间，每个文本 CoT（例如，“步骤 1：… 步骤 2：…”）都会被渲染为图像（想象成提示的简单截图）。
视觉‑语义编码器 – 预训练的视觉‑语言模型（例如 CLIP）将渲染的图像编码为密集向量，以捕捉整体逻辑流程。
用于推理的变分自编码器
- 编码器（后验）：接受当前 LLM 隐状态和视觉‑语义向量，生成分布 (q(z_t|z_{<t}, \text{CoT_img}))。
- 解码器（生成器）：对潜在变量 (z_t) 进行采样，并将其输入 LLM，以产生下一个答案 token（或中间推理 token）。
正则化损失 – KL 散度项将后验推向视觉‑语义嵌入，确保潜在空间保留原始 CoT 的结构。
训练循环 – 模型在标准语言建模损失和 KL 正则化项上共同优化，学习将 CoT “压缩” 为少量潜在步骤。

在推理阶段，省略视觉渲染步骤；模型直接采样潜在状态，从而显著减少生成的 token 数量。

结果与发现

基准	CoT（基线）	潜在推理（先前）	ReGuLaR
GSM‑8K（数学）	78.4 %	62.1 %	80.9 %
CommonsenseQA	71.2 %	58.3 %	73.5 %
MultiArith	85.0 %	70.4 %	86.2 %

准确率：ReGuLaR 在大多数任务上始终优于早期的潜在推理方法，甚至略微超越原始 CoT。
速度：每个示例的平均生成 token 数从约 150（完整 CoT）降至约 45 潜在 token，使单 GPU 推理速度提升约 3 倍。
消融实验：去除视觉‑语义正则化器会导致准确率下降约 7–9 %，确认其核心作用。

实际影响

成本效益高的 LLM 服务 – 部署者可以提供具备推理能力的 API，降低 GPU 时间和内存占用，从而降低云费用。
边缘和移动场景 – 紧凑的潜在表示使得在计算资源受限的设备上运行增强推理的模型成为可能（例如，设备端助手）。
多模态流水线 – 由于引导来自图像，ReGuLaR 自然适用于已经混合文本和视觉的工作流（例如，OCR 增强的问答、文档理解）。
可调试的推理 – 在开发过程中可以保留可视化渲染步骤，以检查模型如何压缩推理链，帮助模型可解释性和提示工程。

局限性与未来工作

依赖视觉编码器 – 潜在压缩的质量取决于视觉语言模型；次优的编码器可能成为性能瓶颈。
训练开销 – 渲染 CoT 并处理它们会增加预处理时间，尽管这只是一笔一次性的成本。
对非英语或高度领域特定的 CoT 的泛化 – 当前实验聚焦于英语基准；将其扩展到其他语言或专门领域可能需要定制的视觉编码器。

未来的方向包括探索 仅文本 语义正则化器（例如句子嵌入）以去除图像步骤，将方法扩展到更大的 LLM，以及结合强化学习对特定下游应用的潜在推理进行微调。

作者

Fanmeng Wang
Haotian Liu
Guojiang Zhao
Hongteng Xu
Zhifeng Gao

论文信息

arXiv ID: 2601.23184v1
分类: cs.CL
出版日期: 2026年1月30日
PDF: 下载 PDF

[Paper] ReGuLaR：Variational Latent Reasoning Guided by Rendered Chain-of-Thought

概述

关键贡献

方法论

结果与发现

实际影响

局限性与未来工作

作者

论文信息

相关文章

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈

[Paper] PaperBanana：为 AI 科学家自动化学术插图

[Paper] 通用语言识别与生成

[Paper] 现在你听见我：针对大型音频语言模型的音频叙事攻击