[Paper] 自我改进的多语言长推理通过翻译-推理集成训练

发布: 3天前 (2026年2月6日 GMT+8 01:55)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.05940v1

概览

本文介绍了 TRIT（翻译‑推理集成训练），这是一种自我提升的框架，教会大型语言模型同时进行翻译和推理。通过将翻译直接嵌入推理流程，TRIT 消除了长期存在的难题——多语言模型要么默认使用英文进行推理，要么在被迫使用问题原始语言时准确率大幅下降。其结果是一个单一模型，能够理解多语言数学问题，并给出既正确又语言一致的答案。

关键贡献

统一的翻译与推理训练 – 消除对单独翻译模块或外部多语言数据的需求。
自我改进循环 – 模型生成自己的翻译‑推理对，持续提升两项能力。
显著的性能提升 – 在多语言数学基准 MMATH 上，TRIT 相比强基线提升约 7 % 的绝对准确率。
跨语言对齐改进 – 问题‑语言理解提升超过 10 % 点，降低“仅英语”偏差。
更好的翻译质量 – 在 FLORES‑200 上实现最高 +8.4 COMET 分，表明推理训练同样提升纯翻译水平。

方法论

Data Construction – 从已有的多语言问答对（例如 MMATH）出发，作者生成合成的翻译‑推理三元组。每个三元组包含：
- 原始语言 L 中的问题。
- 机器生成的该问题的英文翻译。
- 用英文逐步推理的过程，直至得到答案。
Integrated Training Objective – 模型使用单一损失函数进行训练，同时奖励：
- 对问题的准确英文翻译。
- 紧随翻译后问题的正确推理步骤。
- 在原始语言中正确生成最终答案。
Self‑Improvement Cycle – 在首次训练后，模型被用于对同一数据重新翻译和重新推理，生成更高质量的三元组。这些更新后的三元组取代旧的，模型再次进行微调。该循环重复数次，每一次迭代都“教会”模型在无需人工标注的情况下同时提升两项任务的能力。
Evaluation – 性能评估包括：
- Answer correctness（数学题目的精确匹配）。
- Language consistency（答案是否使用与问题相同的语言表达）。
- Translation quality（在 FLORES‑200 上的 COMET 分数）。

结果与发现

指标	基线（多语言 LLM）	TRIT（最终迭代）
MMATH 整体准确率	~58 %	~65 % (+7 pts)
跨语言问题对齐	~68 %	~78 % (+10 pts)
FLORES‑200 COMET（翻译）	71.2	79.6 (+8.4)
语言一致答案率	62 %	71 %

这意味着：

推理质量提升，因为模型不再需要“猜测”外语问题的英文含义——它看到的是它帮助生成的干净翻译。
语言一致性提升，使开发者可以信任模型会用用户提问的同一语言作答，这对多语言聊天机器人或辅导应用至关重要。
翻译提升展示了一个令人愉快的副作用：在推理上进行训练也会提升模型的纯翻译能力，暗示两项任务之间共享表示。

实际影响

多语言 AI 助手 现在可以处理复杂的多步骤查询（例如数学、逻辑谜题），无需回退到英文，从而在各个市场提供更流畅的用户体验。
教育技术 平台支持数十种语言，可以依赖单一模型完成问题翻译和解答生成，降低基础设施和维护成本。
跨境数据管道（例如从多语言报告中提取洞见）可以嵌入 TRIT 风格的训练，在进行下游推理时保持语义完整性。
开发者工作流 —— 自我改进循环仅需原始的多语言问答数据；无需额外的翻译语料或人工标注，使其在现有数据集上易于采用。

限制与未来工作

Domain scope – 实验聚焦于数学推理；TRIT 在法律推理或代码合成等其他领域的迁移效果仍有待验证。
Resource demand – 迭代自我训练循环相比一次性微调会增加额外的计算消耗，这可能成为小团队的门槛。
Language coverage – 虽然 FLORES‑200 包含 200 种语言，但所使用的基准（MMATH）仅覆盖其中的一个子集；低资源语言由于训练数据稀缺可能仍然落后。
Future directions suggested by the authors include: extending TRIT to multimodal inputs (e.g., diagrams), integrating external knowledge bases to further boost reasoning depth, and exploring curriculum‑learning schedules that prioritize harder languages earlier in the loop.

作者

Junxiao Liu
Zhijun Wang
Yixiao Li
Zhejian Lai
Liqian Huang
Xin Huang
Xue Han
Junlan Feng
Shujian Huang

论文信息

arXiv ID: 2602.05940v1
分类: cs.CL
出版日期: 2026年2月5日
PDF: 下载 PDF

[Paper] 自我改进的多语言长推理通过翻译-推理集成训练

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] DFlash：块扩散用于 Flash 投机解码

[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

[论文] 通过自蒸馏的多标记预测

[Paper] 大语言模型在 PTSD 严重程度估计中的系统评估：上下文知识与建模策略的作用