[Paper] TALES:大型语言模型生成故事中文化表征的分类与分析

发布: (2025年11月26日 GMT+8 20:07)
6 min read
原文: arXiv

Source: arXiv - 2511.21322v1

Overview

本文介绍了 TALES,对大型语言模型(LLMs)在 AI 生成的故事中呈现印度文化身份的系统性研究。通过构建文化误呈现的分类体系并评估多个流行模型,作者发现大多数生成的叙事包含文化错误——尤其是在资源较少的语言和郊区环境中——而模型本身往往仍保留底层的文化知识。

Key Contributions

  • TALES‑Tax:基于拥有印度各地区生活经验的人的焦点小组和调查,构建的细粒度文化误呈现分类体系。
  • 大规模标注工作:收集了 2,925 条故事标注,来自 108 位标注者,覆盖 71 个印度地区和 14 种语言。
  • 六种 LLM 的实证审计:量化了不同模型、语言和地理故事设置下文化不准确性的普遍程度。
  • TALES‑QA:一个精选的问答基准,专注于文化知识,使得能够在不依赖故事生成流水线的情况下直接评估基础模型。
  • 洞察性悖论:模型往往知道正确的文化事实(如 TALES‑QA 所示),但仍生成有缺陷的故事,凸显了知识检索与生成之间的差距。

Methodology

  1. 分类体系创建 – 与来自多元印度背景的参与者进行 9 场焦点小组和 15 份个人调查。将他们的反馈提炼为层级分类(如服饰、食物、节日、社会规范、方言线索)。
  2. 故事生成 – 对六种 LLM(包括开源和商业 API)进行提示,让它们撰写关于位于不同印度地区和语言环境中的角色的短篇故事。
  3. 标注流水线 – 招募 108 位自认与所描绘文化相符的标注者。每篇故事均被审查是否出现分类体系定义的误呈现,得到 2,925 条标注实例。
  4. 定量分析 – 测量模型、语言资源水平(高资源 vs 低资源)以及故事设置(城市、郊区、农村)之间的错误率。
  5. 知识探测 – 将分类项目转化为 1,200 道多项选择题(TALES‑QA),在不涉及故事生成的情况下评估相同模型的事实回忆能力。

Results & Findings

  • 88 % 的生成故事至少包含一次文化不准确。
  • 错误频率在 中低资源的印度语言(如马拉地语、孟加拉语)中 更高,相较于高资源语言(如印地语、英语)。
  • 设置在 郊区 的故事显示出最高的误呈现率,表明模型偏向于刻板的城市叙事。
  • 在 TALES‑QA 上,许多模型达到了 70‑85 % 的准确率,说明它们 拥有 事实性的文化知识。
  • 这种差异表明生成流水线(提示处理、解码策略)常常未能正确展现已有知识。

Practical Implications

  • 产品团队 在为印度市场构建 AI 驱动的故事讲述、聊天机器人或虚拟助理时,应集成文化验证层(例如使用 TALES‑Tax 或 TALES‑QA 进行生成后检查)。
  • 提示工程:明确指定文化细节(地区、语言、习俗)可以减轻部分错误,但仍需系统性的防护措施。
  • 微调与 RLHF:引入多元文化的高质量数据集以及基于文化感知的人类反馈的强化学习,可缩小知识‑生成鸿沟。
  • 本地化流水线:对于多语言产品,优先提升低资源语言的数据质量和评估,以避免强化刻板印象。
  • 合规与伦理:企业可使用 TALES‑Tax 作为审计清单,展示在文化敏感场景部署 LLM 时的负责任 AI 实践。

Limitations & Future Work

  • 本研究仅聚焦于 印度文化身份;将分类体系扩展至其他地区是实现全球适用性的必要步骤。
  • 标注依赖 自报的生活经验,虽有价值,但可能未覆盖地区内部的全部变异。
  • 只审查了 六种模型;更新或更专业的 LLM 可能表现不同。
  • 未来研究可探索 自动检测 文化误呈现、集成 实时纠正机制,以及评估 指令微调 对降低此类错误的影响。

Authors

  • Kirti Bhagat
  • Shaily Bhatt
  • Athul Velagapudi
  • Aditya Vashistha
  • Shachi Dave
  • Danish Pruthi

Paper Information

  • arXiv ID: 2511.21322v1
  • Categories: cs.HC, cs.AI, cs.CL, cs.CY
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »