[Paper] 超越 Many-Shot 翻译:扩展 In-Context Demonstrations 以实现 Low-Resource 机器翻译
发布: (2026年2月5日 GMT+8 01:02)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.04764v1
概述
本文探讨在推理阶段向大型语言模型(LLM)提供成千上万的翻译示例——而非通常的少量示例——是否能够显著提升低资源语言的机器翻译质量。通过将模型的上下文窗口扩展至 1 百万 token,作者研究了不同类型的上下文监督(单语、指令式以及平行数据)对爪哇语和巽他语翻译质量的影响。
关键贡献
- Scale‑up of in‑context learning (ICL): 展示了在机器翻译中使用多达 1 M 令牌的示例进行学习的可行性,远超典型的 few‑shot 设置。
- Systematic comparison of supervision types: 评估单语无监督数据、指令式提示以及真实平行语料库作为 in‑context 示例的来源。
- Empirical saturation analysis: 表明翻译质量在几百个示例时迅速提升,但当上下文窗口被填满时会趋于平台期——甚至下降。
- Competitive monolingual supervision: 发现某些单语提示设计即使缺乏直接的源‑目标对,也能与平行数据相媲美。
- Guidelines for long‑context MT: 提供关于使用多少上下文以及在低资源场景下应优先选择哪种数据类型的实用建议。
方法论
- 模型与上下文窗口:作者使用能够处理高达 1 M 令牌的“长上下文”大语言模型(例如,具有扩展注意力的 Transformer)。
- 示例构建:准备了三类语料库:
- 单语:目标语言的句子配以通用提示(例如,“将此翻译成 X”)。
- 指令式:人工编写的自然语言提示,描述翻译任务。
- 平行:经典的双语句对(英语‑目标语言和印尼语‑目标语言)。
- 扩展过程:对每种语料库类型,逐步增加上下文示例的数量(例如 8、32、128、512,… 直至达到令牌上限)。
- 评估:在保留的爪哇语和巽他语测试集上使用 BLEU 和 chrF 分数衡量翻译质量,并进行统计显著性检验以发现饱和点。
- 分析:跟踪性能趋势,计算每令牌效率,并检查当上下文窗口接近容量时的失败案例。
结果与发现
| 语料类型 | 最佳 BLEU(爪哇语) | 最佳 BLEU(巽他语) | 饱和点 |
|---|---|---|---|
| 单语(无监督) | 23.4 | 21.9 | ~256 示例(≈ 8 k 令牌) |
| 指令式 | 24.1 | 22.5 | ~512 示例(≈ 16 k 令牌) |
| 平行(英‑目标) | 25.3 | 23.8 | ~1 k 示例(≈ 32 k 令牌) |
| 平行(印尼‑目标) | 25.7 | 24.2 | ~1 k 示例(≈ 32 k 令牌) |
- 快速的早期收益:添加前几百个示例即可带来大部分改进(约占总提升的 80%)。
- 收益递减:超过约 1 k 示例后,BLEU 分数趋于平稳,且当上下文窗口超过约 200 k 令牌时甚至下降,可能是注意力稀释和提示过载导致。
- 单语 vs. 平行:某些单语提示格式(例如“写一个流畅的句子关于 …”)的 BLEU 与平行数据相差仅 1–2 分,表明直接的双语监督并非获得适度提升的必需条件。
- 语料类型敏感性:指令式提示对更大的上下文规模更具鲁棒性,而原始平行示例则更早出现性能下降。
实际意义
- 低资源部署:开发者只需在每次推理请求中追加几百条精心构造的示例,即可提升小语种的翻译质量——无需微调。
- 提示工程优先于数据收集:在高质量的单语或指令提示上下功夫,往往比为每个新语言对收集平行语料更省时省力。
- 上下文窗口预算:使用带有 token 限制的 LLM API(例如 OpenAI 的 128 k token 上限)时,建议演示示例控制在 ≤ 30 k token,以保持性能的“最佳区间”。
- 混合流水线:将少量平行示例(用于锚定质量)与更大规模的单语或指令块结合使用,以最大化 token 使用的 ROI。
- 边缘设备推理:对于内存受限的本地模型,研究结果表明,仅需一个适度的示例缓冲区(几百句)即可满足需求,同时保持延迟在可接受范围内。
限制与未来工作
- 语言范围:实验仅限于爪哇语和巽他语;对于脚本或形态差异更大的语言,结果可能不同。
- 模型规模依赖性:本研究使用单一的长上下文大语言模型;随着模型规模的增大或缩小,扩展行为可能会改变。
- 提示多样性:仅考察了三类宽泛的语料库;更丰富的提示变体(例如代码混合、特定领域)仍未探索。
- 评估指标:BLEU/chrF 捕捉表面相似度,但可能遗漏细微的充分性或流畅性提升;人工评估将加强结论的可靠性。
- 未来方向:研究自适应示例选择(为每个源句检索最相关的示例),探索多轮交互式 ICL,并在真正的零资源语言(完全没有平行数据)上测试该方法。
作者
- Luis Frentzen Salim
- Esteban Carlin
- Alexandre Morinvil
- Xi Ai
- Lun‑Wei Ku
论文信息
- arXiv ID: 2602.04764v1
- 分类: cs.CL
- 出版日期: 2026年2月4日
- PDF: 下载 PDF