[Paper] 自我改进的多语言长推理通过翻译-推理集成训练
发布: (2026年2月6日 GMT+8 01:55)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.05940v1
概览
本文介绍了 TRIT(翻译‑推理集成训练),这是一种自我提升的框架,教会大型语言模型同时进行翻译和推理。通过将翻译直接嵌入推理流程,TRIT 消除了长期存在的难题——多语言模型要么默认使用英文进行推理,要么在被迫使用问题原始语言时准确率大幅下降。其结果是一个单一模型,能够理解多语言数学问题,并给出既正确又语言一致的答案。
关键贡献
- 统一的翻译与推理训练 – 消除对单独翻译模块或外部多语言数据的需求。
- 自我改进循环 – 模型生成自己的翻译‑推理对,持续提升两项能力。
- 显著的性能提升 – 在多语言数学基准 MMATH 上,TRIT 相比强基线提升约 7 % 的绝对准确率。
- 跨语言对齐改进 – 问题‑语言理解提升超过 10 % 点,降低“仅英语”偏差。
- 更好的翻译质量 – 在 FLORES‑200 上实现最高 +8.4 COMET 分,表明推理训练同样提升纯翻译水平。
方法论
-
Data Construction – 从已有的多语言问答对(例如 MMATH)出发,作者生成合成的翻译‑推理三元组。每个三元组包含:
- 原始语言 L 中的问题。
- 机器生成的该问题的英文翻译。
- 用英文逐步推理的过程,直至得到答案。
-
Integrated Training Objective – 模型使用单一损失函数进行训练,同时奖励:
- 对问题的准确英文翻译。
- 紧随翻译后问题的正确推理步骤。
- 在原始语言中正确生成最终答案。
-
Self‑Improvement Cycle – 在首次训练后,模型被用于对同一数据重新翻译和重新推理,生成更高质量的三元组。这些更新后的三元组取代旧的,模型再次进行微调。该循环重复数次,每一次迭代都“教会”模型在无需人工标注的情况下同时提升两项任务的能力。
-
Evaluation – 性能评估包括:
- Answer correctness(数学题目的精确匹配)。
- Language consistency(答案是否使用与问题相同的语言表达)。
- Translation quality(在 FLORES‑200 上的 COMET 分数)。
结果与发现
| 指标 | 基线(多语言 LLM) | TRIT(最终迭代) |
|---|---|---|
| MMATH 整体准确率 | ~58 % | ~65 % (+7 pts) |
| 跨语言问题对齐 | ~68 % | ~78 % (+10 pts) |
| FLORES‑200 COMET(翻译) | 71.2 | 79.6 (+8.4) |
| 语言一致答案率 | 62 % | 71 % |
这意味着:
- 推理质量提升,因为模型不再需要“猜测”外语问题的英文含义——它看到的是它帮助生成的干净翻译。
- 语言一致性提升,使开发者可以信任模型会用用户提问的同一语言作答,这对多语言聊天机器人或辅导应用至关重要。
- 翻译提升展示了一个令人愉快的副作用:在推理上进行训练也会提升模型的纯翻译能力,暗示两项任务之间共享表示。
实际影响
- 多语言 AI 助手 现在可以处理复杂的多步骤查询(例如数学、逻辑谜题),无需回退到英文,从而在各个市场提供更流畅的用户体验。
- 教育技术 平台支持数十种语言,可以依赖单一模型完成问题翻译和解答生成,降低基础设施和维护成本。
- 跨境数据管道(例如从多语言报告中提取洞见)可以嵌入 TRIT 风格的训练,在进行下游推理时保持语义完整性。
- 开发者工作流 —— 自我改进循环仅需原始的多语言问答数据;无需额外的翻译语料或人工标注,使其在现有数据集上易于采用。
限制与未来工作
- Domain scope – 实验聚焦于数学推理;TRIT 在法律推理或代码合成等其他领域的迁移效果仍有待验证。
- Resource demand – 迭代自我训练循环相比一次性微调会增加额外的计算消耗,这可能成为小团队的门槛。
- Language coverage – 虽然 FLORES‑200 包含 200 种语言,但所使用的基准(MMATH)仅覆盖其中的一个子集;低资源语言由于训练数据稀缺可能仍然落后。
- Future directions suggested by the authors include: extending TRIT to multimodal inputs (e.g., diagrams), integrating external knowledge bases to further boost reasoning depth, and exploring curriculum‑learning schedules that prioritize harder languages earlier in the loop.
作者
- Junxiao Liu
- Zhijun Wang
- Yixiao Li
- Zhejian Lai
- Liqian Huang
- Xin Huang
- Xue Han
- Junlan Feng
- Shujian Huang
论文信息
- arXiv ID: 2602.05940v1
- 分类: cs.CL
- 出版日期: 2026年2月5日
- PDF: 下载 PDF