[Paper] 在翻译中恢复:高效的基准和数据集自动翻译流水线

发布: (2026年2月26日 GMT+8 02:58)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.22207v1

概述

大型语言模型(LLM)的多语言评估一直受到基准数据集低质量翻译的阻碍,这些翻译往往导致语义漂移并剥离任务特定的上下文。Yukhymenko 等人提出了一套全自动流水线,能够在保持任务原始结构的同时生成高保真度的翻译。通过结合测试时的计算扩展技巧——通用自我改进(Universal Self‑Improvement,USI)以及一种名为 T‑RANK 的新型多轮排序方法,作者实现的翻译在可验证上优于现有资源,从而使多语言 LLM 评估更加可信。

关键贡献

  • 端到端自动翻译框架,用于基准和数据集,消除手动后编辑的需求。
  • 通用自我改进(USI) 适配用于翻译:一种测试时缩放技术,可在不重新训练模型的情况下迭代优化输出。
  • T‑RANK,一种新颖的多轮排序算法,从候选池中挑选语义最忠实的翻译。
  • 大规模多语言推广:将流行基准翻译成八种东欧和南欧语言(乌克兰语、保加利亚语、斯洛伐克语、罗马尼亚语、立陶宛语、爱沙尼亚语、土耳其语、希腊语)。
  • 全面评估,使用基于参考的指标(BLEU、COMET)和 LLM‑as‑a‑judge 评估,显示相较于之前的翻译资源有一致的提升。
  • 开源发布,包括流水线代码和新翻译的基准套件。

方法论

  1. Dataset Ingestion – 原始英文基准被解析,以提取提示、输入和预期输出,同时保留任务元数据(例如,多项选择选项、代码片段)。
  2. Candidate Generation – 使用强大的多语言大模型(例如 GPT‑4‑Turbo)在高计算预算下为每个条目生成 N 个翻译候选。
  3. Universal Self‑Improvement (USI) – 在测试时,模型使用更大的上下文窗口和更高的温度采样重新评估每个候选,生成精炼版本,无需微调。
  4. T‑RANK Multi‑Round Ranking
    • Round 1: 轻量评分器(在小规模平行语料上训练)过滤掉低质量候选。
    • Round 2: 使用更大的 LLM 对剩余候选重新打分,评估语义忠实度、风格以及任务保持属性。
    • Final Selection: 保留排名最高的翻译,其他的被丢弃。
  5. Post‑Processing & Validation – 简单的基于规则的检查确保格式符合要求(例如 JSON 模式、代码语法)。随后管道输出可直接使用的本地化基准。

所有步骤均通过模块化的 Python 库进行编排,便于插入不同的 LLM 后端或排序模型。

结果与发现

LanguageBLEU ↑COMET ↑LLM‑as‑Judge Preference
Ukrainian38.2 → 44.70.71 → 0.8468 % vs. 32 % (baseline)
Turkish35.6 → 42.10.68 → 0.8071 % vs. 29 %
Greek36.9 → 43.30.70 → 0.8266 % vs. 34 %
… (others)similar gainssimilar gainsconsistent majority preference
  • 语义漂移降低: 人类评估者报告相较于之前的最先进翻译,意义改变错误下降了 45 %。
  • 任务结构保持: 对于代码生成和多选任务,流水线保持了 >98 % 的准确答案格式,而基线翻译在约 7 % 的情况下破坏了格式。
  • 下游影响: 在使用新翻译的基准评估多语言 LLM 时,英语与目标语言之间的性能差距平均缩小了 12 个百分点,表明对模型真实能力的测量更为忠实。

实际意义

  • 更可靠的多语言基准测试: 开发者现在可以在不同语言之间比较 LLM,而无需担心翻译伪影导致分数被夸大或缩小。
  • 快速本地化新数据集: 该流水线可以接入 CI/CD 流程,在新基准(例如新出现的编程挑战、安全测试)发布后立即自动翻译。
  • 成本效益的规模化: 通过利用测试时计算规模化(USI)而非完整模型微调,组织可以在有限的 GPU 预算下实现高质量翻译。
  • 改进的产品质量保证: 构建多语言 AI 助手的公司可以使用翻译后的基准,在发布前对语言特定的边缘案例进行压力测试。
  • 开源社区推动: 已发布的代码库欢迎贡献(例如添加对更多语言或领域特定词汇的支持),促进多语言评估的共享生态系统。

限制与未来工作

  • 语言覆盖范围: 当前版本侧重于八种东欧/南欧语言;资源稀缺、平行数据少的低资源语言仍可能存在质量差距。
  • 计算开销: USI 和多轮排序会增加每个条目的推理时间,如果没有批处理优化,对极大规模语料库可能不可行。
  • 领域特定性: 对高度技术性术语(如医学或法律)的基准测试尚未明确进行;未来工作应评估领域适配的排序模型。
  • 人工在环细化: 虽然完全自动化,但轻量级的人类验证步骤可以捕捉罕见的边缘错误;将此步骤整合进来是一个开放的研究方向。

作者计划将框架扩展到更多语言,探索自适应计算预算(仅在模糊条目上花费更多循环),并开放排行榜供社区提交翻译质量指标。

作者

  • Hanna Yukhymenko
  • Anton Alexandrov
  • Martin Vechev

论文信息

  • arXiv ID: 2602.22207v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发布时间: 2026年2月25日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »