[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

发布: 3天前 (2026年2月26日 GMT+8 02:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.22207v1

概述

大型语言模型（LLM）的多语言评估一直受到基准数据集低质量翻译的阻碍，这些翻译往往导致语义漂移并剥离任务特定的上下文。Yukhymenko 等人提出了一套全自动流水线，能够在保持任务原始结构的同时生成高保真度的翻译。通过结合测试时的计算扩展技巧——通用自我改进（Universal Self‑Improvement，USI）以及一种名为 T‑RANK 的新型多轮排序方法，作者实现的翻译在可验证上优于现有资源，从而使多语言 LLM 评估更加可信。

关键贡献

端到端自动翻译框架，用于基准和数据集，消除手动后编辑的需求。
通用自我改进（USI） 适配用于翻译：一种测试时缩放技术，可在不重新训练模型的情况下迭代优化输出。
T‑RANK，一种新颖的多轮排序算法，从候选池中挑选语义最忠实的翻译。
大规模多语言推广：将流行基准翻译成八种东欧和南欧语言（乌克兰语、保加利亚语、斯洛伐克语、罗马尼亚语、立陶宛语、爱沙尼亚语、土耳其语、希腊语）。
全面评估，使用基于参考的指标（BLEU、COMET）和 LLM‑as‑a‑judge 评估，显示相较于之前的翻译资源有一致的提升。
开源发布，包括流水线代码和新翻译的基准套件。

方法论

Dataset Ingestion – 原始英文基准被解析，以提取提示、输入和预期输出，同时保留任务元数据（例如，多项选择选项、代码片段）。
Candidate Generation – 使用强大的多语言大模型（例如 GPT‑4‑Turbo）在高计算预算下为每个条目生成 N 个翻译候选。
Universal Self‑Improvement (USI) – 在测试时，模型使用更大的上下文窗口和更高的温度采样重新评估每个候选，生成精炼版本，无需微调。
T‑RANK Multi‑Round Ranking
- Round 1: 轻量评分器（在小规模平行语料上训练）过滤掉低质量候选。
- Round 2: 使用更大的 LLM 对剩余候选重新打分，评估语义忠实度、风格以及任务保持属性。
- Final Selection: 保留排名最高的翻译，其他的被丢弃。
Post‑Processing & Validation – 简单的基于规则的检查确保格式符合要求（例如 JSON 模式、代码语法）。随后管道输出可直接使用的本地化基准。

所有步骤均通过模块化的 Python 库进行编排，便于插入不同的 LLM 后端或排序模型。

结果与发现

Language	BLEU ↑	COMET ↑	LLM‑as‑Judge Preference
Ukrainian	38.2 → 44.7	0.71 → 0.84	68 % vs. 32 % (baseline)
Turkish	35.6 → 42.1	0.68 → 0.80	71 % vs. 29 %
Greek	36.9 → 43.3	0.70 → 0.82	66 % vs. 34 %
… (others)	similar gains	similar gains	consistent majority preference

语义漂移降低： 人类评估者报告相较于之前的最先进翻译，意义改变错误下降了 45 %。
任务结构保持： 对于代码生成和多选任务，流水线保持了 >98 % 的准确答案格式，而基线翻译在约 7 % 的情况下破坏了格式。
下游影响： 在使用新翻译的基准评估多语言 LLM 时，英语与目标语言之间的性能差距平均缩小了 12 个百分点，表明对模型真实能力的测量更为忠实。

实际意义

更可靠的多语言基准测试： 开发者现在可以在不同语言之间比较 LLM，而无需担心翻译伪影导致分数被夸大或缩小。
快速本地化新数据集： 该流水线可以接入 CI/CD 流程，在新基准（例如新出现的编程挑战、安全测试）发布后立即自动翻译。
成本效益的规模化： 通过利用测试时计算规模化（USI）而非完整模型微调，组织可以在有限的 GPU 预算下实现高质量翻译。
改进的产品质量保证： 构建多语言 AI 助手的公司可以使用翻译后的基准，在发布前对语言特定的边缘案例进行压力测试。
开源社区推动： 已发布的代码库欢迎贡献（例如添加对更多语言或领域特定词汇的支持），促进多语言评估的共享生态系统。

限制与未来工作

语言覆盖范围： 当前版本侧重于八种东欧/南欧语言；资源稀缺、平行数据少的低资源语言仍可能存在质量差距。
计算开销： USI 和多轮排序会增加每个条目的推理时间，如果没有批处理优化，对极大规模语料库可能不可行。
领域特定性： 对高度技术性术语（如医学或法律）的基准测试尚未明确进行；未来工作应评估领域适配的排序模型。
人工在环细化： 虽然完全自动化，但轻量级的人类验证步骤可以捕捉罕见的边缘错误；将此步骤整合进来是一个开放的研究方向。

作者计划将框架扩展到更多语言，探索自适应计算预算（仅在模糊条目上花费更多循环），并开放排行榜供社区提交翻译质量指标。

作者

Hanna Yukhymenko
Anton Alexandrov
Martin Vechev

论文信息

arXiv ID: 2602.22207v1
分类: cs.CL, cs.AI, cs.LG
发布时间: 2026年2月25日
PDF: 下载 PDF

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型