[Paper] JobResQA:面向多语言简历和职位描述的LLM机器阅读理解基准

发布: (2026年1月31日 GMT+8 01:06)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.23183v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

本文提出了 JobResQA,一个新的多语言基准,用于测试大型语言模型(LLMs)在阅读和理解简历‑职位描述(JD)配对方面的能力。该数据集覆盖五种语言和三种难度级别,揭示了基于 LLM 的人力资源工具的当前优势和盲点,尤其是在隐私保护数据和公平性分析方面。

关键贡献

  • 一个多语言面向人力资源的 QA 基准 – 在英语、西班牙语、意大利语、德语和中文中,包含 581 个问题,涉及 105 对合成的简历‑职位描述对。
  • 三层次的问题复杂度 – 从简单的事实抽取到跨文档推理,模拟真实招聘者的查询。
  • 隐私优先的数据生成流水线 – 对真实简历进行去标识化,注入可控的人口统计和职业占位符,并合成逼真的内容。
  • 成本高效的人机协同翻译 (TEaR) – 结合机器翻译、MQM 错误标注和选择性后编辑,生成高质量平行数据。
  • 使用 “LLM‑as‑judge” 的基线评估 – 在英语/西班牙语上表现强劲,但意大利语、德语和中文出现显著下降,暴露多语言差距。
  • 开源发布 – 完整数据集、生成脚本和评估代码均公开,可用于可重复性研究。

方法论

  1. 源数据收集与去标识化 – 对真实简历和职位描述(JDs)去除个人身份信息。
  2. 合成对创建 – 插入占位符(例如 <AGE><ROLE>)以控制人口统计信息和职位名称,然后使用基于规则的生成器填入真实值。
  3. 问题设计 – 领域专家编写了三个层级的问题:
    • Level 1:直接事实(例如 “候选人的工作年限是多少?”)
    • Level 2:文档内部推理(例如 “哪项技能出现次数最多?”)
    • Level 3:跨文档推理(例如 “该候选人是否符合高级数据工程师职位的要求?”)
  4. 多语言翻译 (TEaR) – 机器翻译生成初稿;标注员使用 MQM(多维质量度量)标记错误,仅在错误分数超过阈值时进行针对性后编辑。
  5. 评估框架 – 对多个开源权重的大型语言模型系列(如 Llama‑2、Mistral、Bloom)进行提问。使用 LLM‑as‑judge 模型对答案正确性打分,从而获得语言无关的性能快照。

结果与发现

  • English & Spanish:Level 1 的平均精确匹配得分 > 70 %,Level 3 约为 55 %,表明在事实和推理能力方面表现稳健。
  • Italian、German、Chinese:所有层级的得分下降了 20‑35 %,其中 Level 3 往往低于 30 %。
  • 跨语言迁移:在英文数据上微调的模型在其他语言上的表现仅略有提升,说明多语言泛化能力有限。
  • 偏见检测:占位符驱动的设计使作者能够在模型输出中发现细微的性别和资历偏见,验证了该基准在公平性审计中的实用性。

实际意义

  • 招聘自动化:公司可以使用 JobResQA 对内部 LLM 进行基准测试,然后再部署简历筛选或职位描述匹配机器人,确保它们达到语言特定的质量阈值。
  • 公平性与合规性:受控的人口属性使得进行偏见检查变得容易(例如,“模型是否偏向男性候选人担任高级职位?”),并符合 GDPR 类隐私要求。
  • 产品路线图:非英语语言的显著性能差距表明全球 HR SaaS 平台需要进行针对性的多语言微调或混合流水线(例如,先翻译再回答)。
  • 成本效益本地化:TEaR 翻译工作流展示了一种可扩展的方式来创建高质量的多语言训练数据,而无需全人工翻译的高成本——这对任何需要本地化 QA 数据集的产品都有帮助。

限制与未来工作

  • 合成性质 – 虽然基于真实简历,但数据仍是合成的;边缘案例的语言使用或行业特定术语可能代表性不足。
  • 评估依赖 LLM‑as‑judge – 评分模型本身可能继承偏见;对部分数据进行人工验证可以提升可靠性。
  • 语言范围 – 仅覆盖了五种语言;扩展到低资源语言(如阿拉伯语、印地语)是自然的下一步。
  • 动态人力资源情境 – 实时的就业市场变化(新技能术语、远程工作词汇)未被捕获;需要定期刷新数据集。

JobResQA 为更透明、公平且多语言的人力资源 AI 系统打开了大门——它是开发下一代招聘工具的开发者的宝贵资源。

作者

  • Casimiro Pio Carrino
  • Paula Estrella
  • Rabih Zbib
  • Carlos Escolano
  • José A. R. Fonollosa

论文信息

  • arXiv ID: 2601.23183v1
  • 类别: cs.CL
  • 出版日期: 2026年1月30日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »