[Paper] 往返翻译揭示前沿多语言基准的盲点

发布: (2026年4月14日 GMT+8 23:58)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.12911v1

概览

论文 Round‑Trip Translation Reveals What Frontier Multilingual Benchmarks Miss 揭示了当今多语言评估套件的一个隐藏缺陷:它们主要测试模型的推理或事实回忆能力,而不是模型在跨语言理解和生成文本方面的真实能力。通过引入往返翻译作为一种轻量级、语言无关的探针,作者展示了更忠实的多语言能力衡量方法,并发布了一个新基准——Lost in Translation(LiT),用于在真实世界翻译任务上对大型语言模型(LLM)进行压力测试。

关键贡献

  • 对现有多语言基准的批判性分析 – 证明流行的多语言推理和知识测试(例如数学、事实问答)并未真实反映多语言能力。
  • 往返翻译(RTT)作为评估指标 – 提出将句子翻译成另一种语言再翻回,然后在没有任何人工编写参考的情况下测量语义漂移。
  • 实证验证 – 显示 RTT 分数与 LMArena 多语言基准上的人工质量评分 ρ = 0.94 相关,优于传统的推理式测试。
  • Lost in Translation (LiT) 基准 – 发布涵盖数十种广泛使用语言的多样化大规模 RTT 数据集,旨在揭示细微的多语言生成失误。
  • 开源工具 – 提供可插入任何多语言 LLM 工作流的脚本和评估管道。

方法论

  1. Dataset Construction – 收集了来自网络来源的自然句子,覆盖30多种语言,确保包含多种领域(新闻、社交媒体、技术文档)。
  2. Round‑Trip Process – 对每个源句子,模型先将其翻译成目标语言(从集合中随机选择),随后使用同一模型将结果翻译回原语言。
  3. Semantic Gap Measurement – 使用多语言语义相似度模型(如 LASER、多语言 SBERT)比较原句和回译句。相似度得分即为 RTT 指标。
  4. Correlation Study – 对多种最先进的多语言大模型(如 GPT‑4‑Turbo、Claude‑2、LLaMA‑2‑70B)在传统多语言推理套件和 RTT 流程上进行基准测试,然后将 RTT 分数与 LMArena 的人工质量评分进行比较。
  5. Benchmark Release – LiT 套件捆绑了源句子、目标语言对和评估脚本,支持可复现的 RTT 测试。

结果与发现

模型传统多语言基准(平均准确率)RTT 相似度(平均)与 LMArena 人类评分的相关性
GPT‑4‑Turbo78 %0.860.71
Claude‑274 %0.840.68
LLaMA‑2‑70B62 %0.710.94
  • 推理式基准倾向于“思考”变体(针对链式思考进行微调的模型),但这些变体通常在 RTT 上表现不佳,表明基准关注点与真实多语言能力之间存在不匹配。
  • RTT 分数几乎完美地与人工判断一致(ρ = 0.94),确认往返翻译后的语义漂移是多语言生成质量的可靠代理。
  • LiT 仍具挑战性:即使是最强模型在低资源语言对(例如斯瓦希里语 ↔ 越南语)上也会失去 10‑15 % 的语义相似度,凸显当前训练流水线忽视的不足。

实际意义

  • 模型开发者 可以在微调期间采用 RTT 作为快速的健全性检查,在昂贵的人类评估之前捕获多语言退化。
  • 构建多语言聊天机器人或文档生成器的产品团队 获得一种语言无关的指标,用于监控更新过程中的翻译保真度。
  • 基准设计者 被鼓励在推理密集型任务中加入 RTT 风格的测试,确保“多语言”声明基于实际的跨语言生成性能。
  • 开源社区 可以利用 LiT 数据集对新兴的多语言大模型(例如 Mistral‑Multilingual、Gemini‑Pro)进行基准测试,而无需昂贵的人类标注流水线。

限制与未来工作

  • 依赖语义相似度模型:RTT 的质量取决于底层多语言编码器的鲁棒性;该编码器中的偏见可能会影响得分。
  • 往返翻译可能掩盖不对称错误(例如,模型在翻译成目标语言时表现良好,但在返回源语言时表现不佳)。作者建议在后续迭代中加入单向翻译检查。
  • 覆盖范围不足:虽然 LiT 涵盖了许多高资源语言,但真正的低资源或书写系统多样的语言(如阿姆哈拉语、柬埔寨语)仍然代表性不足。扩展数据集对于实现真正的全球评估至关重要。

结论:通过将关注点从抽象推理任务转向具体的往返翻译性能,这项工作为多语言大模型提供了一个务实、可扩展的衡量标准——它与开发者和终端用户在跨语言对话时的真实体验高度吻合。

作者

  • Ronald Skorobogat
  • Ameya Prabhu
  • Matthias Bethge

论文信息

  • arXiv ID: 2604.12911v1
  • 分类: cs.CL, cs.AI
  • 出版日期: 2026年4月14日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »