[Paper] RespondeoQA:拉丁语-英语双语问答基准

发布: (2026年4月23日 GMT+8 00:24)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.20738v1

概述

RespondeoQA 基准测试推出了首个大规模的问答(QA)数据集,将拉丁语与英语配对。该数据集约包含 7,800 条精心挑选的 QA 对,来源于教科书、试卷以及跨越两个世纪的 quiz‑bowl 风格的 Trivia。该资源使研究人员和工程师能够评估现代语言模型在理解和翻译这类“死”语言时的表现。

关键贡献

  • 双语拉丁‑英语 QA 语料库 (≈ 7.8 k 对),覆盖多种问题类型:事实回忆、多跳推理、受限翻译和文学手法分析。
  • 可复现的流水线,用于从传统教学资源中提取、清洗并人工验证 QA 项目——易于适配其他低资源或历史语言。
  • 基准评估 三种最先进的 LLM(LLaMA 3、Qwen QwQ、OpenAI o3‑mini),突出其在面向技能的拉丁语查询上的系统性弱点。
  • 开源发布(GitHub),包括数据、脚本和评估脚本,鼓励社区贡献和跨语言基准测试。

方法论

  1. 源数据挖掘 – 作者抓取了公开的拉丁语教学材料(考试档案、问答比赛数据库和经典教材)。
  2. 自动提取 – 使用正则表达式模式和简单的自然语言处理启发式方法识别问题干、答案键以及任何随附的英文翻译。
  3. 清洗与规范化 – 自动进行重复删除、拼写规范化(拉丁文变音符号、英文正字法)以及词元级对齐。
  4. 人工审查 – 拉丁语学者团队手动验证每一对的正确性、语言一致性和难度水平,形成高质量的金标准。
  5. 任务制定 – 每条记录可用于两种方式:
    • 问答(QA) – 给出拉丁语或英语的问题,生成答案;
    • 翻译问答(Translation QA) – 在回答前先翻译问题,以测试跨语言推理。
  6. 基线实验 – 三个大型语言模型在零样本模式下使用两种语言变体进行提示,使用精确匹配和 F1 分数在不同问题类别上评估性能。

Results & Findings

模型整体最佳得分 (F1)最强领域最弱领域
LLaMA 30.42音步扫描与文学手法检测(拉丁语)技能导向的事实回忆(英语)
Qwen QwQ0.44在拉丁语问题上略有优势多跳推理
OpenAI o3‑mini0.38在跨语言简单事实问答中表现一致复杂推理与翻译约束
  • 所有模型在 技能导向 的问题上表现最差,这类问题需要拉丁语语法、韵律或修辞手法的知识。
  • 推理增强 提示(链式思考)在音步扫描任务上带来适度提升,但未能缩小在多跳或翻译密集项目上的差距。
  • 提示语言很重要:QwQ 在问题以拉丁语呈现时略有更好表现,表明部分模型在经过大规模多语言预训练后仍保留语言特定的先验。

实际意义

  • Educational Tech – 自动批改拉丁语考试或生成练习测验的平台现在可以使用一个真实且多样化的数据集来对其流水线进行基准测试,而不必依赖合成示例。
  • Cross‑lingual Retrieval – 针对历史文本(例如数字化手稿)的搜索引擎可以利用 RespondeoQA 对拉丁‑英语查询翻译的检索增强生成模型进行微调。
  • Low‑Resource Model Development – 开源流水线展示了一条可行的路径,可为其他代表性不足的语言(如古典希腊语、古诺尔斯语)快速构建问答资源。
  • Prompt Engineering – 对问题语言的敏感性凸显了在生产环境中部署多语言大模型时,需要采用语言感知的提示策略。

限制与未来工作

  • 领域集中 – 数据集严重倾向于学术和琐事来源;真实世界的用户查询(例如,随意的历史好奇心)代表性不足。
  • 规模 – 约 7.8 k 对的 RespondeoQA 相较于主流 QA 语料库规模较小,限制了其在大规模微调中的实用性。
  • 评估范围 – 仅考察了零样本表现;未来工作可以探索少样本或基于适配器的微调,以量化潜在收益。
  • 向其他古典语言的扩展 – 作者提出将该流水线适配到希腊语、梵语甚至已灭绝的文字,但尚未得到验证。

RespondeoQA 为在一个细分且文化丰富的领域评估语言模型打开了新前沿。通过提供数据和可复现的创建工作流,它邀请开发者尝试多语言推理、改进教育工具,并将该方法扩展到其他低资源语言。

作者

  • Marisa Hudspeth
  • Patrick J. Burns
  • Brendan O’Connor

论文信息

  • arXiv ID: 2604.20738v1
  • Categories: cs.CL
  • Published: 2026年4月22日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »