[Paper] IndicIFEval:用于在 14 种印地语系语言中进行可验证指令遵循评估的基准

发布: (2026年2月26日 GMT+8 01:12)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.22125v1

概述

论文 “IndicIFEval: A Benchmark for Verifiable Instruction-Following Evaluation in 14 Indic Languages” 填补了大型语言模型(LLMs)评估中的显著空白:大多数现有的指令遵循测试仅限于英语,尽管数十亿人每天使用印地语系语言。通过引入一个经过严格验证、基于规则的基准,覆盖印地语、孟加拉语、泰米尔语、泰卢固语以及另外十种语言,作者为研究人员和开发者提供了一种具体方法,以衡量 LLM 在这些代表性不足的语言中遵循结构化提示的能力。

关键贡献

  • 多语言基准: 14‑语言套件(IndicIFEval),每种语言约 800 条经人工验证的示例。
  • 两个互补子集:
    1. IndicIFEval‑Ground – 英文 IFEval 提示的本地化翻译,已适配文化相关性。
    2. IndicIFEval‑Synth – 基于本土印地语内容的规则驱动合成指令。
  • 自动可验证性: 每个任务都包含确定性的规则检查(例如格式、词汇约束),使脚本能够在无需人工评分的情况下对模型输出进行打分。
  • 全面模型调研: 对开源模型(如 LLaMA、Mistral)和专有模型(如 GPT‑4、Claude)进行评估,涵盖推理密集型和纯生成型变体。
  • 开源发布: 基准数据、评估脚本和文档已在 GitHub 上公开,鼓励社区贡献。

方法论

  1. Prompt 构建

    • Grounded Set:现有的英文 IFEval 提示由母语者翻译,然后进行“本地化”——将成语、文化引用和领域特定术语替换为在各语言中有意义的等价表达。
    • Synthetic Set:使用语言特定的词汇资源(词表、形态规则),规则引擎生成指令(例如,“列出三个以字母‘k’开头的泰米尔语水果”)。
  2. 人工验证

    • 每个翻译或合成的示例均由至少两位母语标注员审阅,以确保语法正确、文化适宜,并且验证规则(例如,“输出必须是 JSON 数组”)可执行。
  3. 评估流水线

    • 模型接收指令并必须生成满足 两者——语义请求和格式约束(JSON、项目符号列表等)的输出。
    • 开源脚本解析响应,检查格式,然后运行确定性的验证器(例如正则表达式、查找表)以确认正确性。
    • 分数按语言和任务类型(词汇、推理、跨语言)进行汇总。
  4. 模型套件

    • 开源权重:LLaMA‑2(7B/13B)、Mistral‑7B、Falcon‑40B 等。
    • 专有模型:GPT‑4、Claude‑2、Gemini‑Pro。
    • 同时测试了“推理”(启用链式思考)和“非推理”变体,以观察提示风格如何影响性能。

结果与发现

类别最佳开源模型最佳专有模型观察
格式遵循度~96%(Mistral‑7B)~99%(GPT‑4)模型能够可靠地遵守 JSON / 项目符号约束。
词汇任务(例如列出项目、拼写)45–58%70–82%与英文基准相比显著下降;即使是顶级模型也会遗漏许多特定语言的词汇。
跨语言推理(先翻译再回答)38%61%推理模型提升了分数,但仍远低于英文表现(约 90%)。
整体印地语系平均52%73%高资源语言(印地语)与低资源语言(阿萨姆语、孔卡尼语)之间的差距明显。

含义:

  • 大语言模型在遵守结构约束(能够输出有效的 JSON)方面表现良好,但在提示使用印地语系语言时,内容方面仍然存在困难。
  • 即使是最先进的闭源模型,也比其英文得分低 15–30 分,凸显出系统性的多语言不足。

Practical Implications

  • 产品本地化: 为印度市场构建聊天机器人、虚拟助理或文档生成器的公司,现在拥有一个具体的度量标准,能够评估其模型是否真的能够按照用户的印地语、泰米尔语等指令执行。
  • 合规性与数据抽取: 许多企业工作流依赖结构化输出(JSON、CSV)。IndicIFEval 显示,虽然格式合规性可靠,但抽取实体(姓名、日期、产品代码)的语义正确性仍有待提升。
  • 微调路线图: 该基准可用作领域特定微调或指令微调流水线的验证集,帮助团队优先考虑语言特定的分词器、词汇扩展或适配层。
  • 开源生态系统: 研究人员可以使用共享、可验证的标准,对新多语言大模型(如 BLOOM‑Z、IndicBERT‑LLM)进行基准测试,加速社区驱动的进展。

限制与未来工作

  • 覆盖偏差: 虽然包含了 14 种语言,但基准测试仍偏向于数字语料相对丰富的语言(如印地语、孟加拉语)。像 Bodo 或 Manipuri 这样的超低资源语言未被覆盖。
  • 基于规则的验证上限: 确定性验证器只能捕获一部分可能的正确答案;细微的语义变体可能会被视为错误。
  • 提示多样性: 当前任务侧重于受限生成(列表、JSON)。未来版本可以加入开放式推理、代码生成或多模态指令。
  • 模型访问: 研究中使用的专有模型结果依赖于 API 黑箱,限制了更广泛社区的可复现性。

作者计划通过增加更多语言、更丰富的任务类型以及社区提交的对抗示例来扩展 IndicIFEval,使基准既具挑战性又具代表性。

作者

  • Thanmay Jayakumar
  • Mohammed Safi Ur Rahman Khan
  • Raj Dabre
  • Ratish Puduppully
  • Anoop Kunchukuttan

论文信息

  • arXiv ID: 2602.22125v1
  • 分类: cs.CL
  • 发表时间: 2026年2月25日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »