[Paper] IndicIFEval:用于在 14 种印地语系语言中进行可验证指令遵循评估的基准
发布: (2026年2月26日 GMT+8 01:12)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.22125v1
概述
论文 “IndicIFEval: A Benchmark for Verifiable Instruction-Following Evaluation in 14 Indic Languages” 填补了大型语言模型(LLMs)评估中的显著空白:大多数现有的指令遵循测试仅限于英语,尽管数十亿人每天使用印地语系语言。通过引入一个经过严格验证、基于规则的基准,覆盖印地语、孟加拉语、泰米尔语、泰卢固语以及另外十种语言,作者为研究人员和开发者提供了一种具体方法,以衡量 LLM 在这些代表性不足的语言中遵循结构化提示的能力。
关键贡献
- 多语言基准: 14‑语言套件(IndicIFEval),每种语言约 800 条经人工验证的示例。
- 两个互补子集:
- IndicIFEval‑Ground – 英文 IFEval 提示的本地化翻译,已适配文化相关性。
- IndicIFEval‑Synth – 基于本土印地语内容的规则驱动合成指令。
- 自动可验证性: 每个任务都包含确定性的规则检查(例如格式、词汇约束),使脚本能够在无需人工评分的情况下对模型输出进行打分。
- 全面模型调研: 对开源模型(如 LLaMA、Mistral)和专有模型(如 GPT‑4、Claude)进行评估,涵盖推理密集型和纯生成型变体。
- 开源发布: 基准数据、评估脚本和文档已在 GitHub 上公开,鼓励社区贡献。
方法论
-
Prompt 构建
- Grounded Set:现有的英文 IFEval 提示由母语者翻译,然后进行“本地化”——将成语、文化引用和领域特定术语替换为在各语言中有意义的等价表达。
- Synthetic Set:使用语言特定的词汇资源(词表、形态规则),规则引擎生成指令(例如,“列出三个以字母‘k’开头的泰米尔语水果”)。
-
人工验证
- 每个翻译或合成的示例均由至少两位母语标注员审阅,以确保语法正确、文化适宜,并且验证规则(例如,“输出必须是 JSON 数组”)可执行。
-
评估流水线
- 模型接收指令并必须生成满足 两者——语义请求和格式约束(JSON、项目符号列表等)的输出。
- 开源脚本解析响应,检查格式,然后运行确定性的验证器(例如正则表达式、查找表)以确认正确性。
- 分数按语言和任务类型(词汇、推理、跨语言)进行汇总。
-
模型套件
- 开源权重:LLaMA‑2(7B/13B)、Mistral‑7B、Falcon‑40B 等。
- 专有模型:GPT‑4、Claude‑2、Gemini‑Pro。
- 同时测试了“推理”(启用链式思考)和“非推理”变体,以观察提示风格如何影响性能。
结果与发现
| 类别 | 最佳开源模型 | 最佳专有模型 | 观察 |
|---|---|---|---|
| 格式遵循度 | ~96%(Mistral‑7B) | ~99%(GPT‑4) | 模型能够可靠地遵守 JSON / 项目符号约束。 |
| 词汇任务(例如列出项目、拼写) | 45–58% | 70–82% | 与英文基准相比显著下降;即使是顶级模型也会遗漏许多特定语言的词汇。 |
| 跨语言推理(先翻译再回答) | 38% | 61% | 推理模型提升了分数,但仍远低于英文表现(约 90%)。 |
| 整体印地语系平均 | 52% | 73% | 高资源语言(印地语)与低资源语言(阿萨姆语、孔卡尼语)之间的差距明显。 |
含义:
- 大语言模型在遵守结构约束(能够输出有效的 JSON)方面表现良好,但在提示使用印地语系语言时,内容方面仍然存在困难。
- 即使是最先进的闭源模型,也比其英文得分低 15–30 分,凸显出系统性的多语言不足。
Practical Implications
- 产品本地化: 为印度市场构建聊天机器人、虚拟助理或文档生成器的公司,现在拥有一个具体的度量标准,能够评估其模型是否真的能够按照用户的印地语、泰米尔语等指令执行。
- 合规性与数据抽取: 许多企业工作流依赖结构化输出(JSON、CSV)。IndicIFEval 显示,虽然格式合规性可靠,但抽取实体(姓名、日期、产品代码)的语义正确性仍有待提升。
- 微调路线图: 该基准可用作领域特定微调或指令微调流水线的验证集,帮助团队优先考虑语言特定的分词器、词汇扩展或适配层。
- 开源生态系统: 研究人员可以使用共享、可验证的标准,对新多语言大模型(如 BLOOM‑Z、IndicBERT‑LLM)进行基准测试,加速社区驱动的进展。
限制与未来工作
- 覆盖偏差: 虽然包含了 14 种语言,但基准测试仍偏向于数字语料相对丰富的语言(如印地语、孟加拉语)。像 Bodo 或 Manipuri 这样的超低资源语言未被覆盖。
- 基于规则的验证上限: 确定性验证器只能捕获一部分可能的正确答案;细微的语义变体可能会被视为错误。
- 提示多样性: 当前任务侧重于受限生成(列表、JSON)。未来版本可以加入开放式推理、代码生成或多模态指令。
- 模型访问: 研究中使用的专有模型结果依赖于 API 黑箱,限制了更广泛社区的可复现性。
作者计划通过增加更多语言、更丰富的任务类型以及社区提交的对抗示例来扩展 IndicIFEval,使基准既具挑战性又具代表性。
作者
- Thanmay Jayakumar
- Mohammed Safi Ur Rahman Khan
- Raj Dabre
- Ratish Puduppully
- Anoop Kunchukuttan
论文信息
- arXiv ID: 2602.22125v1
- 分类: cs.CL
- 发表时间: 2026年2月25日
- PDF: 下载 PDF