[Paper] JobResQA：面向多语言简历和职位描述的LLM机器阅读理解基准

发布: 1周前 (2026年1月31日 GMT+8 01:06)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.23183v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

本文提出了 JobResQA，一个新的多语言基准，用于测试大型语言模型（LLMs）在阅读和理解简历‑职位描述（JD）配对方面的能力。该数据集覆盖五种语言和三种难度级别，揭示了基于 LLM 的人力资源工具的当前优势和盲点，尤其是在隐私保护数据和公平性分析方面。

源数据收集与去标识化 – 对真实简历和职位描述（JDs）去除个人身份信息。
合成对创建 – 插入占位符（例如 <AGE>、<ROLE>）以控制人口统计信息和职位名称，然后使用基于规则的生成器填入真实值。
问题设计 – 领域专家编写了三个层级的问题：
- Level 1：直接事实（例如 “候选人的工作年限是多少？”）
- Level 2：文档内部推理（例如 “哪项技能出现次数最多？”）
- Level 3：跨文档推理（例如 “该候选人是否符合高级数据工程师职位的要求？”）
多语言翻译 (TEaR) – 机器翻译生成初稿；标注员使用 MQM（多维质量度量）标记错误，仅在错误分数超过阈值时进行针对性后编辑。
评估框架 – 对多个开源权重的大型语言模型系列（如 Llama‑2、Mistral、Bloom）进行提问。使用 LLM‑as‑judge 模型对答案正确性打分，从而获得语言无关的性能快照。

English & Spanish：Level 1 的平均精确匹配得分 > 70 %，Level 3 约为 55 %，表明在事实和推理能力方面表现稳健。
Italian、German、Chinese：所有层级的得分下降了 20‑35 %，其中 Level 3 往往低于 30 %。
跨语言迁移：在英文数据上微调的模型在其他语言上的表现仅略有提升，说明多语言泛化能力有限。
偏见检测：占位符驱动的设计使作者能够在模型输出中发现细微的性别和资历偏见，验证了该基准在公平性审计中的实用性。

招聘自动化：公司可以使用 JobResQA 对内部 LLM 进行基准测试，然后再部署简历筛选或职位描述匹配机器人，确保它们达到语言特定的质量阈值。
公平性与合规性：受控的人口属性使得进行偏见检查变得容易（例如，“模型是否偏向男性候选人担任高级职位？”），并符合 GDPR 类隐私要求。
产品路线图：非英语语言的显著性能差距表明全球 HR SaaS 平台需要进行针对性的多语言微调或混合流水线（例如，先翻译再回答）。
成本效益本地化：TEaR 翻译工作流展示了一种可扩展的方式来创建高质量的多语言训练数据，而无需全人工翻译的高成本——这对任何需要本地化 QA 数据集的产品都有帮助。

JobResQA 为更透明、公平且多语言的人力资源 AI 系统打开了大门——它是开发下一代招聘工具的开发者的宝贵资源。