[Paper] VIRAASAT：遍历新路径以进行印度文化推理

发布: 3天前 (2026年2月21日 GMT+8 02:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.18429v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并翻译其余部分。

概述

本文介绍了 VIRAASAT，一个新的基准，挑战大型语言模型（LLM）通过多跳问题对印度文化进行推理。通过从精心策划的知识图谱自动生成超过 3,200 条文化丰富的问答对，作者揭示了当今 LLM 的一个盲点：无法可靠地串联低频、地区特定的事实。

VIRAASAT 数据集 – 一个半自动、多跳 QA 集合，覆盖所有 28 个印度邦和 8 个联邦领地的 13 项文化属性，基于 700 节点的专家策划知识图谱构建。
实证差距分析 – 系统评估最先进的 LLM（包括 CoT‑fine‑tuned 模型），揭示其在链式文化推理上的表现不佳。
Symbolic Chain‑of‑Manipulation (SCoM) – 一种新颖的训练框架，使模型学习模拟显式图操作（遍历、合并、查找），而非依赖自由形式的文本推理。
性能提升 – SCoM 增强模型在 VIRAASAT 上的准确率比标准 Chain‑of‑Thought (CoT) 基线高出 20 %。
开放资源 – 数据集、知识图谱和训练脚本已公开发布，以促进具文化意识的 AI 研究。

知识图谱构建 – 领域专家编制了一个包含 >700 个文化遗产（节日、历史事件、美食等）的图谱，使用 13 种属性类型（例如 “celebrated‑in”、 “origin‑year”）进行链接。
半自动问答生成 – 通过图遍历算法，作者抽样多跳路径（例如 State → Festival → Historical Origin），并自动生成需要链式跳转的模板化问题。人工审阅者对部分问题进行验证，以确保语言自然。
基线评估 – 在零样本、少样本和 CoT 微调设置下测试了主流大模型（GPT‑4、LLaMA‑2、PaLM‑2）。测量了准确率、推理轨迹质量和事实依据。
SCoM 框架 – 与其让模型“逐步思考”，SCoM 提供了一套符号指令集，映射图操作（例如 SELECT node where attribute = “festival” → FOLLOW edge “celebrated‑in” → RETURN state）。模型在生成最终答案前先输出这些符号轨迹，以鼓励内部类图推理。
监督式微调 (SFT) – 作者使用 VIRAASAT 训练划分对模型进行 SCoM 轨迹的微调，然后在保留的测试集上进行评估。

Model	Zero‑Shot	CoT‑Fine‑Tuned	SCoM‑Fine‑Tuned
GPT‑4	38 %	49 %	61 %
LLaMA‑2‑13B	32 %	44 %	58 %
PaLM‑2‑Bison	35 %	46 %	60 %

Culturally aware assistants – 为印度市场构建聊天机器人的开发者可以集成 SCoM‑style 微调，以避免对当地习俗、节日或法律细节的误表述。
Domain‑specific QA systems – 企业（例如旅游局、遗产博物馆）可以利用 VIRAASAT 图谱和 SCoM 训练，为需要多步骤文化推理的问答界面提供动力。
Reduced annotation cost – 半自动化流水线展示了一种可扩展的方法，可为任何地区生成高质量的多跳 QA 数据，从而降低创建本地化 AI 基准的门槛。
Improved model interpretability – 符号轨迹为开发者提供了具体的调试产物（模型走过的“路径”），这在文化敏感的应用中对合规性和偏见审计非常有价值。

VIRAASAT 为开发者构建尊重并理解印度丰富文化织锦的 AI 系统提供了实用路径，使我们更进一步接近真正全球化、具备文化能力的语言模型。