[Paper] 自我改进的多语言长推理通过翻译-推理集成训练

发布: (2026年2月6日 GMT+8 01:55)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.05940v1

概览

本文介绍了 TRIT(翻译‑推理集成训练),这是一种自我提升的框架,教会大型语言模型同时进行翻译和推理。通过将翻译直接嵌入推理流程,TRIT 消除了长期存在的难题——多语言模型要么默认使用英文进行推理,要么在被迫使用问题原始语言时准确率大幅下降。其结果是一个单一模型,能够理解多语言数学问题,并给出既正确又语言一致的答案。

关键贡献

  • 统一的翻译与推理训练 – 消除对单独翻译模块或外部多语言数据的需求。
  • 自我改进循环 – 模型生成自己的翻译‑推理对,持续提升两项能力。
  • 显著的性能提升 – 在多语言数学基准 MMATH 上,TRIT 相比强基线提升约 7 % 的绝对准确率。
  • 跨语言对齐改进 – 问题‑语言理解提升超过 10 % 点,降低“仅英语”偏差。
  • 更好的翻译质量 – 在 FLORES‑200 上实现最高 +8.4 COMET 分,表明推理训练同样提升纯翻译水平。

方法论

  1. Data Construction – 从已有的多语言问答对(例如 MMATH)出发,作者生成合成的翻译‑推理三元组。每个三元组包含:

    • 原始语言 L 中的问题。
    • 机器生成的该问题的英文翻译。
    • 用英文逐步推理的过程,直至得到答案。
  2. Integrated Training Objective – 模型使用单一损失函数进行训练,同时奖励:

    • 对问题的准确英文翻译。
    • 紧随翻译后问题的正确推理步骤。
    • 原始语言中正确生成最终答案。
  3. Self‑Improvement Cycle – 在首次训练后,模型被用于对同一数据重新翻译和重新推理,生成更高质量的三元组。这些更新后的三元组取代旧的,模型再次进行微调。该循环重复数次,每一次迭代都“教会”模型在无需人工标注的情况下同时提升两项任务的能力。

  4. Evaluation – 性能评估包括:

    • Answer correctness(数学题目的精确匹配)。
    • Language consistency(答案是否使用与问题相同的语言表达)。
    • Translation quality(在 FLORES‑200 上的 COMET 分数)。

结果与发现

指标基线(多语言 LLM)TRIT(最终迭代)
MMATH 整体准确率~58 %~65 % (+7 pts)
跨语言问题对齐~68 %~78 % (+10 pts)
FLORES‑200 COMET(翻译)71.279.6 (+8.4)
语言一致答案率62 %71 %

这意味着:

  • 推理质量提升,因为模型不再需要“猜测”外语问题的英文含义——它看到的是它帮助生成的干净翻译。
  • 语言一致性提升,使开发者可以信任模型会用用户提问的同一语言作答,这对多语言聊天机器人或辅导应用至关重要。
  • 翻译提升展示了一个令人愉快的副作用:在推理上进行训练也会提升模型的纯翻译能力,暗示两项任务之间共享表示。

实际影响

  • 多语言 AI 助手 现在可以处理复杂的多步骤查询(例如数学、逻辑谜题),无需回退到英文,从而在各个市场提供更流畅的用户体验。
  • 教育技术 平台支持数十种语言,可以依赖单一模型完成问题翻译和解答生成,降低基础设施和维护成本。
  • 跨境数据管道(例如从多语言报告中提取洞见)可以嵌入 TRIT 风格的训练,在进行下游推理时保持语义完整性。
  • 开发者工作流 —— 自我改进循环仅需原始的多语言问答数据;无需额外的翻译语料或人工标注,使其在现有数据集上易于采用。

限制与未来工作

  • Domain scope – 实验聚焦于数学推理;TRIT 在法律推理或代码合成等其他领域的迁移效果仍有待验证。
  • Resource demand – 迭代自我训练循环相比一次性微调会增加额外的计算消耗,这可能成为小团队的门槛。
  • Language coverage – 虽然 FLORES‑200 包含 200 种语言,但所使用的基准(MMATH)仅覆盖其中的一个子集;低资源语言由于训练数据稀缺可能仍然落后。
  • Future directions suggested by the authors include: extending TRIT to multimodal inputs (e.g., diagrams), integrating external knowledge bases to further boost reasoning depth, and exploring curriculum‑learning schedules that prioritize harder languages earlier in the loop.

作者

  • Junxiao Liu
  • Zhijun Wang
  • Yixiao Li
  • Zhejian Lai
  • Liqian Huang
  • Xin Huang
  • Xue Han
  • Junlan Feng
  • Shujian Huang

论文信息

  • arXiv ID: 2602.05940v1
  • 分类: cs.CL
  • 出版日期: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »