[Paper] ThinkOmni：通过 Guidance Decoding 将文本推理提升至 Omni-modal 场景

发布: 3天前 (2026年2月27日 GMT+8 02:10)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.23306v1

（请提供您希望翻译的具体文本内容，我将按照要求保留源链接并翻译其余部分。）

Overview

本文介绍了 ThinkOmni，一个即插即用的框架，使现有的全模态大语言模型（OLLM）能够继承最先进的大推理模型（LRM）的复杂推理能力——无需额外的训练或数据收集。通过在推理过程中将强大的 LRM 视为“推理指南”，ThinkOmni 弥合了感知密集的多模态模型与数学、常识、视觉问答等任务所需的深层逻辑链之间的差距。

关键贡献

免训练推理增强：使 OLLM 在多模态环境中能够进行复杂的文本推理，无需微调。
LRM‑as‑a‑Guide：一种新颖的推理时解码策略，利用现成的 LRM 来引导 OLLM 的 token 生成。
逐步对比缩放 (SCS)：一种自适应机制，自动平衡视觉感知信号和文本推理线索，免去手动超参数搜索。
广泛的实证验证：在六个多样化的多模态推理基准（如 MathVista、MMAU）上实现一致提升，取得新的最先进成绩（MathVista 70.2，MMAU 75.5）。
通用配方：适用于任何兼容的 OLLM/LRM 组合，成为现有 AI 服务的可复用“插件”。

Source: …

方法论

双模型设置
- Perceiver：一种全模态大语言模型（例如基于 CLIP 或 Flamingo 风格），能够接收图像、视频帧或其他模态并生成文本上下文。
- Reasoner：专注于链式思考推理的大语言模型（例如 GPT‑4、Claude）。
引导解码
- 在每一次生成步骤中，OLLM 提出下一个 token 的分布。
- LRM 接收相同的多模态提示（转换为文本后）并生成自己的 token 分布，体现纯粹的推理。
- 两个分布被融合：OLLM 的感知驱动 logits 会根据 LRM logits 计算出的对比因子进行缩放，从而将最终输出 nudging 向与推理一致的 token。
逐步对比缩放 (SCS)
- 与固定权重（例如 0.5 × 感知 + 0.5 × 推理）不同，SCS 在每个解码步骤根据两组 logits 之间的相似度计算 动态缩放系数。
- 当 LRM 的置信度高时，缩放更倾向于推理；当 OLLM 的视觉信号占优势时，系统则更尊重感知。
- 这种自适应平衡消除了在不同任务上进行大量超参数调优的需求。
零训练流水线
- 该框架仅需预训练好的 OLLM 和 LRM；不需要额外的数据集、微调循环或梯度更新。
- 实现方式是对标准生成 API 的轻量包装，便于直接嵌入现有推理服务。

结果与发现

基准	基线 OLLM	ThinkOmni (OLLM + LRM)	Δ 提升
MathVista	63.1	70.2	+7.1
MMAU	68.4	75.5	+7.1
VQA‑Reason	71.3	77.0	+5.7
ScienceQA‑MM	66.8	73.2	+6.4
DocVQA‑Multi	72.5	78.1	+5.6
Visual‑Commonsense	69.0	74.8	+5.8

跨领域的一致提升（数学、科学、常识、文档理解）。
消融实验表明，去除 SCS 或 LRM 引导会使性能回落到基线，验证了两者都是必需的。
延迟影响适中：由于额外的 LRM 过程，推理时间约增长 1.3×，在权衡准确率提升后，对许多实时应用仍是可接受的。

实际影响

快速能力提升：公司可以立即增强其多模态产品（例如，视觉助理、教育机器人），无需昂贵的再训练流水线。
模块化 AI 堆栈：ThinkOmni 鼓励一种“取长补短”的架构，在该架构中感知和推理模块独立开发，并在推理时组合。
成本效益的扩展：通过复用现有的大语言模型 API（例如 OpenAI、Anthropic）作为推理指南，开发者可以避免通常需要的大规模 GPU 预算用于多模态微调。
提升安全性与可解释性：LRM 的思考链输出可以与最终答案一起记录，提供可审计或用于调试的透明推理轨迹。
边缘到云的混合部署：感知负载较重的 OLLM 可在边缘设备上运行，而 LRM 指导仅在检测到复杂推理步骤时在云端调用，从而优化带宽和延迟。

限制与未来工作

对LRM质量的依赖：框架的上限受限于推理模型的能力；弱的LRM会限制收益。
推理开销：并行运行两个大型模型会使内存使用翻倍并增加延迟，这在资源受限的环境中可能难以接受。
模态转换瓶颈：当前实现将非文本模态转换为文本描述供LRM使用，可能会丢失细粒度的视觉线索。
作者提出的未来方向包括：
1. 探索轻量级推理指南（例如，蒸馏后的LRM）以降低计算成本。
2. 将SCS扩展至同时处理两种以上的模态。
3. 集成反馈回路，使OLLM能够就模糊的视觉输入向LRM请求澄清。

作者

Yiran Guan
Sifan Tu
Dingkang Liang
Linghao Zhu
Jianzhong Ju
Zhenbo Luo
Jian Luan
Yuliang Liu
Xiang Bai

论文信息

arXiv ID: 2602.23306v1
分类: cs.CV
发布日期: 2026年2月26日
PDF: 下载 PDF

[Paper] ThinkOmni：通过 Guidance Decoding 将文本推理提升至 Omni-modal 场景

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] MediX-R1: 开放式医学强化学习

[Paper] VGG-T³：离线前馈式大规模3D重建

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] 传感器泛化用于自适应感知的事件驱动目标检测 via 联合分布训练