[Paper] 往返翻译揭示前沿多语言基准的盲点

发布: 3周前 (2026年4月14日 GMT+8 23:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.12911v1

概览

论文 Round‑Trip Translation Reveals What Frontier Multilingual Benchmarks Miss 揭示了当今多语言评估套件的一个隐藏缺陷：它们主要测试模型的推理或事实回忆能力，而不是模型在跨语言理解和生成文本方面的真实能力。通过引入往返翻译作为一种轻量级、语言无关的探针，作者展示了更忠实的多语言能力衡量方法，并发布了一个新基准——Lost in Translation（LiT），用于在真实世界翻译任务上对大型语言模型（LLM）进行压力测试。

关键贡献

对现有多语言基准的批判性分析 – 证明流行的多语言推理和知识测试（例如数学、事实问答）并未真实反映多语言能力。
往返翻译（RTT）作为评估指标 – 提出将句子翻译成另一种语言再翻回，然后在没有任何人工编写参考的情况下测量语义漂移。
实证验证 – 显示 RTT 分数与 LMArena 多语言基准上的人工质量评分 ρ = 0.94 相关，优于传统的推理式测试。
Lost in Translation (LiT) 基准 – 发布涵盖数十种广泛使用语言的多样化大规模 RTT 数据集，旨在揭示细微的多语言生成失误。
开源工具 – 提供可插入任何多语言 LLM 工作流的脚本和评估管道。

方法论

Dataset Construction – 收集了来自网络来源的自然句子，覆盖30多种语言，确保包含多种领域（新闻、社交媒体、技术文档）。
Round‑Trip Process – 对每个源句子，模型先将其翻译成目标语言（从集合中随机选择），随后使用同一模型将结果翻译回原语言。
Semantic Gap Measurement – 使用多语言语义相似度模型（如 LASER、多语言 SBERT）比较原句和回译句。相似度得分即为 RTT 指标。
Correlation Study – 对多种最先进的多语言大模型（如 GPT‑4‑Turbo、Claude‑2、LLaMA‑2‑70B）在传统多语言推理套件和 RTT 流程上进行基准测试，然后将 RTT 分数与 LMArena 的人工质量评分进行比较。
Benchmark Release – LiT 套件捆绑了源句子、目标语言对和评估脚本，支持可复现的 RTT 测试。

结果与发现

模型	传统多语言基准（平均准确率）	RTT 相似度（平均）	与 LMArena 人类评分的相关性
GPT‑4‑Turbo	78 %	0.86	0.71
Claude‑2	74 %	0.84	0.68
LLaMA‑2‑70B	62 %	0.71	0.94

推理式基准倾向于“思考”变体（针对链式思考进行微调的模型），但这些变体通常在 RTT 上表现不佳，表明基准关注点与真实多语言能力之间存在不匹配。
RTT 分数几乎完美地与人工判断一致（ρ = 0.94），确认往返翻译后的语义漂移是多语言生成质量的可靠代理。
LiT 仍具挑战性：即使是最强模型在低资源语言对（例如斯瓦希里语 ↔ 越南语）上也会失去 10‑15 % 的语义相似度，凸显当前训练流水线忽视的不足。

实际意义

模型开发者 可以在微调期间采用 RTT 作为快速的健全性检查，在昂贵的人类评估之前捕获多语言退化。
构建多语言聊天机器人或文档生成器的产品团队 获得一种语言无关的指标，用于监控更新过程中的翻译保真度。
基准设计者 被鼓励在推理密集型任务中加入 RTT 风格的测试，确保“多语言”声明基于实际的跨语言生成性能。
开源社区 可以利用 LiT 数据集对新兴的多语言大模型（例如 Mistral‑Multilingual、Gemini‑Pro）进行基准测试，而无需昂贵的人类标注流水线。

限制与未来工作

依赖语义相似度模型：RTT 的质量取决于底层多语言编码器的鲁棒性；该编码器中的偏见可能会影响得分。
往返翻译可能掩盖不对称错误（例如，模型在翻译成目标语言时表现良好，但在返回源语言时表现不佳）。作者建议在后续迭代中加入单向翻译检查。
覆盖范围不足：虽然 LiT 涵盖了许多高资源语言，但真正的低资源或书写系统多样的语言（如阿姆哈拉语、柬埔寨语）仍然代表性不足。扩展数据集对于实现真正的全球评估至关重要。

结论：通过将关注点从抽象推理任务转向具体的往返翻译性能，这项工作为多语言大模型提供了一个务实、可扩展的衡量标准——它与开发者和终端用户在跨语言对话时的真实体验高度吻合。

作者

Ronald Skorobogat
Ameya Prabhu
Matthias Bethge

论文信息

arXiv ID: 2604.12911v1
分类: cs.CL, cs.AI
出版日期: 2026年4月14日
PDF: 下载 PDF

[Paper] 往返翻译揭示前沿多语言基准的盲点

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

[Paper] 检测与抑制 Reward Hacking 的 Gradient Fingerprints