[Paper] VIRAASAT:遍历新路径以进行印度文化推理
发布: (2026年2月21日 GMT+8 02:53)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.18429v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并翻译其余部分。
概述
本文介绍了 VIRAASAT,一个新的基准,挑战大型语言模型(LLM)通过多跳问题对印度文化进行推理。通过从精心策划的知识图谱自动生成超过 3,200 条文化丰富的问答对,作者揭示了当今 LLM 的一个盲点:无法可靠地串联低频、地区特定的事实。
关键贡献
- VIRAASAT 数据集 – 一个半自动、多跳 QA 集合,覆盖所有 28 个印度邦和 8 个联邦领地的 13 项文化属性,基于 700 节点的专家策划知识图谱构建。
- 实证差距分析 – 系统评估最先进的 LLM(包括 CoT‑fine‑tuned 模型),揭示其在链式文化推理上的表现不佳。
- Symbolic Chain‑of‑Manipulation (SCoM) – 一种新颖的训练框架,使模型学习模拟显式图操作(遍历、合并、查找),而非依赖自由形式的文本推理。
- 性能提升 – SCoM 增强模型在 VIRAASAT 上的准确率比标准 Chain‑of‑Thought (CoT) 基线高出 20 %。
- 开放资源 – 数据集、知识图谱和训练脚本已公开发布,以促进具文化意识的 AI 研究。
方法论
- 知识图谱构建 – 领域专家编制了一个包含 >700 个文化遗产(节日、历史事件、美食等)的图谱,使用 13 种属性类型(例如 “celebrated‑in”、 “origin‑year”)进行链接。
- 半自动问答生成 – 通过图遍历算法,作者抽样多跳路径(例如 State → Festival → Historical Origin),并自动生成需要链式跳转的模板化问题。人工审阅者对部分问题进行验证,以确保语言自然。
- 基线评估 – 在零样本、少样本和 CoT 微调设置下测试了主流大模型(GPT‑4、LLaMA‑2、PaLM‑2)。测量了准确率、推理轨迹质量和事实依据。
- SCoM 框架 – 与其让模型“逐步思考”,SCoM 提供了一套符号指令集,映射图操作(例如 SELECT node where attribute = “festival” → FOLLOW edge “celebrated‑in” → RETURN state)。模型在生成最终答案前先输出这些符号轨迹,以鼓励内部类图推理。
- 监督式微调 (SFT) – 作者使用 VIRAASAT 训练划分对模型进行 SCoM 轨迹的微调,然后在保留的测试集上进行评估。
结果与发现
| Model | Zero‑Shot | CoT‑Fine‑Tuned | SCoM‑Fine‑Tuned |
|---|---|---|---|
| GPT‑4 | 38 % | 49 % | 61 % |
| LLaMA‑2‑13B | 32 % | 44 % | 58 % |
| PaLM‑2‑Bison | 35 % | 46 % | 60 % |
- Chain‑of‑Thought 提升了性能,但在低概率事实(例如,冷门地区节日)上仍会失误。
- SCoM 始终比 CoT 高出 12–20 % 的绝对准确率,表明显式的符号操作有助于模型在图结构中导航。
- 错误分析显示,SCoM 减少了“幻觉”式的无关事实,并提升了可追溯性(模型的中间步骤与实际图路径对齐的比例为 78 %,而 CoT 为 42 %)。
实际影响
- Culturally aware assistants – 为印度市场构建聊天机器人的开发者可以集成 SCoM‑style 微调,以避免对当地习俗、节日或法律细节的误表述。
- Domain‑specific QA systems – 企业(例如旅游局、遗产博物馆)可以利用 VIRAASAT 图谱和 SCoM 训练,为需要多步骤文化推理的问答界面提供动力。
- Reduced annotation cost – 半自动化流水线展示了一种可扩展的方法,可为任何地区生成高质量的多跳 QA 数据,从而降低创建本地化 AI 基准的门槛。
- Improved model interpretability – 符号轨迹为开发者提供了具体的调试产物(模型走过的“路径”),这在文化敏感的应用中对合规性和偏见审计非常有价值。
限制与未来工作
- 覆盖偏差 – 虽然该图谱覆盖了所有印度州,但每个文化属性的深度不一;一些小众传统仍然代表性不足。
- 语言多样性 – VIRAASAT 目前仅支持英文;扩展到印地语、泰米尔语、孟加拉语等语言,将更好地体现印度的多语言现实。
- 专家策划的可扩展性 – 最初的知识图谱需要大量人工工作;未来工作可以探索从地区语料库中完全自动化构建 KG。
- 超越印度的泛化 – 作者计划将 SCoM 框架适配到其他文化领域(例如非洲民间传说、拉美节庆),以检验跨文化迁移能力。
VIRAASAT 为开发者构建尊重并理解印度丰富文化织锦的 AI 系统提供了实用路径,使我们更进一步接近真正全球化、具备文化能力的语言模型。
作者
- Harshul Raj Surana
- Arijit Maji
- Aryan Vats
- Akash Ghosh
- Sriparna Saha
- Amit Sheth
论文信息
- arXiv ID: 2602.18429v1
- 分类: cs.CL, cs.IR
- 发布时间: 2026年2月20日
- PDF: 下载 PDF