[论文] TREC 2025 RAGTIME 赛道概述
发布: (2026年2月11日 GMT+8 01:47)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.10024v1
概述
在 TREC 2025 的 RAGTIME 赛道中,研究现代语言模型从多语言源材料中生成简洁新闻报道的能力。通过构建包含阿拉伯语、中文、英语、俄语的多语言新闻语料库,并定义三个具体任务,该赛道提供了首个大规模的 跨语言报告生成 与 多语言信息检索(MLIR)基准。结果为开发者提供了当前能力和在构建真正的多语言新闻编辑自动化流水线方面的差距的清晰图景。
关键贡献
- 多语言语料库:策划了一套包含四种语言的平衡新闻故事集合,并配有人类撰写的参考报告。
- 三项基准任务:
- 多语言报告生成 (MRG) – 从混合语言源集合中生成任意语言的报告。
- 英文报告生成 (ERG) – 从多语言源中生成英文摘要。
- 多语言信息检索 (MLIR) – 为给定查询检索跨语言的最相关源文档。
- 综合评估套件:结合自动指标(BLEU、ROUGE、METEOR、chrF、nDCG)以及对事实性、流畅性和跨语言连贯性的人类评估。
- 基线与排行榜:提供强大的基线模型(如 mT5、XLM‑R、多语言 Pegasus)和包含 13 支队伍 125 次运行的公开排行榜。
- 失败模式分析:识别常见错误,如输出中的语言混杂、虚构事实以及对高资源语言的检索偏差。
方法论
- 数据收集 – 从阿拉伯语、中文、英语和俄语的权威媒体收集新闻稿件(≈ 200 k 文档)。人工标注员用每种语言撰写一段报告,形成 金标准 参考集。
- 任务定义
- MRG:输入 = 任意组合的四种语言文档集合;输出 = 用查询语言撰写的报告(多语言变体可输出任意语言)。
- ERG:相同输入,但输出必须为英语。
- MLIR:输入 = 多语言查询;输出 = 按相关性排序的源文档列表,语言不限。
- 系统 – 参赛者构建的流水线通常包括:
- 多语言检索(使用多语言 BERT/XLM‑R 的稠密向量,备选 BM25)。
- 跨语言融合(使用语言无关的相关性模型进行重排序)。
- 生成(在 RAGTIME 语料上微调的编码器‑解码器语言模型)。
- 评估 – 在保留的测试集上计算自动评分;部分运行通过众包平台进行人工评估,重点关注跨语言的事实正确性和可读性。
结果与发现
| Task | 最佳自动评分 (BLEU/chrF) | 人工流畅度 (1‑5) | 显著观察 |
|---|---|---|---|
| MRG | BLEU 23.1 / chrF 56.4 | 4.1 | 在生成前进行语言识别的系统优于端到端的多语言模型。 |
| ERG | BLEU 27.8 / chrF 60.2 | 4.3 | 仅英文微调带来适度提升;然而,幻觉现象相比 MRG 上升约 12 %。 |
| MLIR | nDCG@10 0.71 | — | 检索模型偏向英文文档;多语言密集检索将此偏差降低了 18 %。 |
总体而言,顶级系统利用 语言感知检索 + 单语生成(例如,检索文档,翻译成英文,然后生成)。纯多语言生成器表现落后,尤其在低资源语言(阿拉伯语、俄语)上。人工评审将事实漂移标记为主要错误,而非流畅性。
实际影响
- 新闻编辑部和内容聚合平台:基准测试表明,检索‑翻译‑生成流水线已经能够从混合语言信息流中生成可用的英文摘要,从而加快全球报道的速度。
- 多语言搜索引擎:从 MLIR 任务中获得的洞见有助于改进跨语言排序,降低对英文的偏向,提升非英语市场的用户体验。
- 大模型微调策略:语言识别前置步骤的成功表明,开发者在构建多语言生成服务时应加入 语言标签 或 语言特定适配器。
- 合规与事实核查:识别出的幻觉模式凸显了在受监管领域部署自动化报告前,需要加入生成后验证模块(例如检索增强生成)。
限制与未来工作
- Domain Narrowness:语料库仅限于新闻稿;在科学、法律或社交媒体文本上的表现可能不同。
- Language Coverage:仅包含四种语言;扩展到低资源语言(例如斯瓦希里语、印地语)仍是一个未解决的挑战。
- Evaluation Gaps:自动指标仍与人类对事实性的判断相关性较弱;需要更丰富的评估框架(例如面向事实性的指标)。
- Scalability:当前领先系统依赖多个阶段(检索、翻译、生成),这会在实时应用中导致高延迟。未来工作旨在实现end‑to‑end multilingual generation,在保持事实依据的同时降低流水线复杂度。
作者
- Dawn Lawrie
- Sean MacAvaney
- James Mayfield
- Luca Soldaini
- Eugene Yang
- Andrew Yates
论文信息
- arXiv ID: 2602.10024v1
- 类别: cs.IR, cs.CL
- 出版时间: 2026年2月10日
- PDF: 下载 PDF