[Paper] IndicIFEval：用于在 14 种印地语系语言中进行可验证指令遵循评估的基准

发布: 3天前 (2026年2月26日 GMT+8 01:12)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.22125v1

概述

论文 “IndicIFEval: A Benchmark for Verifiable Instruction-Following Evaluation in 14 Indic Languages” 填补了大型语言模型（LLMs）评估中的显著空白：大多数现有的指令遵循测试仅限于英语，尽管数十亿人每天使用印地语系语言。通过引入一个经过严格验证、基于规则的基准，覆盖印地语、孟加拉语、泰米尔语、泰卢固语以及另外十种语言，作者为研究人员和开发者提供了一种具体方法，以衡量 LLM 在这些代表性不足的语言中遵循结构化提示的能力。

关键贡献

多语言基准: 14‑语言套件（IndicIFEval），每种语言约 800 条经人工验证的示例。
两个互补子集:
1. IndicIFEval‑Ground – 英文 IFEval 提示的本地化翻译，已适配文化相关性。
2. IndicIFEval‑Synth – 基于本土印地语内容的规则驱动合成指令。
自动可验证性: 每个任务都包含确定性的规则检查（例如格式、词汇约束），使脚本能够在无需人工评分的情况下对模型输出进行打分。
全面模型调研: 对开源模型（如 LLaMA、Mistral）和专有模型（如 GPT‑4、Claude）进行评估，涵盖推理密集型和纯生成型变体。
开源发布: 基准数据、评估脚本和文档已在 GitHub 上公开，鼓励社区贡献。

方法论

Prompt 构建
- Grounded Set：现有的英文 IFEval 提示由母语者翻译，然后进行“本地化”——将成语、文化引用和领域特定术语替换为在各语言中有意义的等价表达。
- Synthetic Set：使用语言特定的词汇资源（词表、形态规则），规则引擎生成指令（例如，“列出三个以字母‘k’开头的泰米尔语水果”）。
人工验证
- 每个翻译或合成的示例均由至少两位母语标注员审阅，以确保语法正确、文化适宜，并且验证规则（例如，“输出必须是 JSON 数组”）可执行。
评估流水线
- 模型接收指令并必须生成满足两者——语义请求和格式约束（JSON、项目符号列表等）的输出。
- 开源脚本解析响应，检查格式，然后运行确定性的验证器（例如正则表达式、查找表）以确认正确性。
- 分数按语言和任务类型（词汇、推理、跨语言）进行汇总。
模型套件
- 开源权重：LLaMA‑2（7B/13B）、Mistral‑7B、Falcon‑40B 等。
- 专有模型：GPT‑4、Claude‑2、Gemini‑Pro。
- 同时测试了“推理”（启用链式思考）和“非推理”变体，以观察提示风格如何影响性能。

结果与发现

类别	最佳开源模型	最佳专有模型	观察
格式遵循度	~96%（Mistral‑7B）	~99%（GPT‑4）	模型能够可靠地遵守 JSON / 项目符号约束。
词汇任务（例如列出项目、拼写）	45–58%	70–82%	与英文基准相比显著下降；即使是顶级模型也会遗漏许多特定语言的词汇。
跨语言推理（先翻译再回答）	38%	61%	推理模型提升了分数，但仍远低于英文表现（约 90%）。
整体印地语系平均	52%	73%	高资源语言（印地语）与低资源语言（阿萨姆语、孔卡尼语）之间的差距明显。

含义：

大语言模型在遵守结构约束（能够输出有效的 JSON）方面表现良好，但在提示使用印地语系语言时，内容方面仍然存在困难。
即使是最先进的闭源模型，也比其英文得分低 15–30 分，凸显出系统性的多语言不足。

Practical Implications

产品本地化： 为印度市场构建聊天机器人、虚拟助理或文档生成器的公司，现在拥有一个具体的度量标准，能够评估其模型是否真的能够按照用户的印地语、泰米尔语等指令执行。
合规性与数据抽取： 许多企业工作流依赖结构化输出（JSON、CSV）。IndicIFEval 显示，虽然格式合规性可靠，但抽取实体（姓名、日期、产品代码）的语义正确性仍有待提升。
微调路线图： 该基准可用作领域特定微调或指令微调流水线的验证集，帮助团队优先考虑语言特定的分词器、词汇扩展或适配层。
开源生态系统： 研究人员可以使用共享、可验证的标准，对新多语言大模型（如 BLOOM‑Z、IndicBERT‑LLM）进行基准测试，加速社区驱动的进展。

限制与未来工作

覆盖偏差： 虽然包含了 14 种语言，但基准测试仍偏向于数字语料相对丰富的语言（如印地语、孟加拉语）。像 Bodo 或 Manipuri 这样的超低资源语言未被覆盖。
基于规则的验证上限： 确定性验证器只能捕获一部分可能的正确答案；细微的语义变体可能会被视为错误。
提示多样性： 当前任务侧重于受限生成（列表、JSON）。未来版本可以加入开放式推理、代码生成或多模态指令。
模型访问： 研究中使用的专有模型结果依赖于 API 黑箱，限制了更广泛社区的可复现性。

作者计划通过增加更多语言、更丰富的任务类型以及社区提交的对抗示例来扩展 IndicIFEval，使基准既具挑战性又具代表性。

作者

Thanmay Jayakumar
Mohammed Safi Ur Rahman Khan
Raj Dabre
Ratish Puduppully
Anoop Kunchukuttan

论文信息

arXiv ID: 2602.22125v1
分类: cs.CL
发表时间: 2026年2月25日
PDF: 下载 PDF

[Paper] IndicIFEval：用于在 14 种印地语系语言中进行可验证指令遵循评估的基准

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模无法克服语用学：报告偏差对 Vision-Language Reasoning 的影响

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？