[Paper] VIRAASAT:遍历新路径以进行印度文化推理

发布: (2026年2月21日 GMT+8 02:53)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.18429v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并翻译其余部分。

概述

本文介绍了 VIRAASAT,一个新的基准,挑战大型语言模型(LLM)通过多跳问题对印度文化进行推理。通过从精心策划的知识图谱自动生成超过 3,200 条文化丰富的问答对,作者揭示了当今 LLM 的一个盲点:无法可靠地串联低频、地区特定的事实。

关键贡献

  • VIRAASAT 数据集 – 一个半自动、多跳 QA 集合,覆盖所有 28 个印度邦和 8 个联邦领地的 13 项文化属性,基于 700 节点的专家策划知识图谱构建。
  • 实证差距分析 – 系统评估最先进的 LLM(包括 CoT‑fine‑tuned 模型),揭示其在链式文化推理上的表现不佳。
  • Symbolic Chain‑of‑Manipulation (SCoM) – 一种新颖的训练框架,使模型学习模拟显式图操作(遍历、合并、查找),而非依赖自由形式的文本推理。
  • 性能提升 – SCoM 增强模型在 VIRAASAT 上的准确率比标准 Chain‑of‑Thought (CoT) 基线高出 20 %
  • 开放资源 – 数据集、知识图谱和训练脚本已公开发布,以促进具文化意识的 AI 研究。

方法论

  1. 知识图谱构建 – 领域专家编制了一个包含 >700 个文化遗产(节日、历史事件、美食等)的图谱,使用 13 种属性类型(例如 “celebrated‑in”、 “origin‑year”)进行链接。
  2. 半自动问答生成 – 通过图遍历算法,作者抽样多跳路径(例如 State → Festival → Historical Origin),并自动生成需要链式跳转的模板化问题。人工审阅者对部分问题进行验证,以确保语言自然。
  3. 基线评估 – 在零样本、少样本和 CoT 微调设置下测试了主流大模型(GPT‑4、LLaMA‑2、PaLM‑2)。测量了准确率、推理轨迹质量和事实依据。
  4. SCoM 框架 – 与其让模型“逐步思考”,SCoM 提供了一套符号指令集,映射图操作(例如 SELECT node where attribute = “festival” → FOLLOW edge “celebrated‑in” → RETURN state)。模型在生成最终答案前先输出这些符号轨迹,以鼓励内部类图推理。
  5. 监督式微调 (SFT) – 作者使用 VIRAASAT 训练划分对模型进行 SCoM 轨迹的微调,然后在保留的测试集上进行评估。

结果与发现

ModelZero‑ShotCoT‑Fine‑TunedSCoM‑Fine‑Tuned
GPT‑438 %49 %61 %
LLaMA‑2‑13B32 %44 %58 %
PaLM‑2‑Bison35 %46 %60 %
  • Chain‑of‑Thought 提升了性能,但在低概率事实(例如,冷门地区节日)上仍会失误。
  • SCoM 始终比 CoT 高出 12–20 % 的绝对准确率,表明显式的符号操作有助于模型在图结构中导航。
  • 错误分析显示,SCoM 减少了“幻觉”式的无关事实,并提升了可追溯性(模型的中间步骤与实际图路径对齐的比例为 78 %,而 CoT 为 42 %)。

实际影响

  • Culturally aware assistants – 为印度市场构建聊天机器人的开发者可以集成 SCoM‑style 微调,以避免对当地习俗、节日或法律细节的误表述。
  • Domain‑specific QA systems – 企业(例如旅游局、遗产博物馆)可以利用 VIRAASAT 图谱和 SCoM 训练,为需要多步骤文化推理的问答界面提供动力。
  • Reduced annotation cost – 半自动化流水线展示了一种可扩展的方法,可为任何地区生成高质量的多跳 QA 数据,从而降低创建本地化 AI 基准的门槛。
  • Improved model interpretability – 符号轨迹为开发者提供了具体的调试产物(模型走过的“路径”),这在文化敏感的应用中对合规性和偏见审计非常有价值。

限制与未来工作

  • 覆盖偏差 – 虽然该图谱覆盖了所有印度州,但每个文化属性的深度不一;一些小众传统仍然代表性不足。
  • 语言多样性 – VIRAASAT 目前仅支持英文;扩展到印地语、泰米尔语、孟加拉语等语言,将更好地体现印度的多语言现实。
  • 专家策划的可扩展性 – 最初的知识图谱需要大量人工工作;未来工作可以探索从地区语料库中完全自动化构建 KG。
  • 超越印度的泛化 – 作者计划将 SCoM 框架适配到其他文化领域(例如非洲民间传说、拉美节庆),以检验跨文化迁移能力。

VIRAASAT 为开发者构建尊重并理解印度丰富文化织锦的 AI 系统提供了实用路径,使我们更进一步接近真正全球化、具备文化能力的语言模型。

作者

  • Harshul Raj Surana
  • Arijit Maji
  • Aryan Vats
  • Akash Ghosh
  • Sriparna Saha
  • Amit Sheth

论文信息

  • arXiv ID: 2602.18429v1
  • 分类: cs.CL, cs.IR
  • 发布时间: 2026年2月20日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »