[Paper] TALES：大型语言模型生成故事中文化表征的分类与分析

发布: 2个月前 (2025年11月26日 GMT+8 20:07)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21322v1

Overview

本文介绍了 TALES，对大型语言模型（LLMs）在 AI 生成的故事中呈现印度文化身份的系统性研究。通过构建文化误呈现的分类体系并评估多个流行模型，作者发现大多数生成的叙事包含文化错误——尤其是在资源较少的语言和郊区环境中——而模型本身往往仍保留底层的文化知识。

分类体系创建 – 与来自多元印度背景的参与者进行 9 场焦点小组和 15 份个人调查。将他们的反馈提炼为层级分类（如服饰、食物、节日、社会规范、方言线索）。
故事生成 – 对六种 LLM（包括开源和商业 API）进行提示，让它们撰写关于位于不同印度地区和语言环境中的角色的短篇故事。
标注流水线 – 招募 108 位自认与所描绘文化相符的标注者。每篇故事均被审查是否出现分类体系定义的误呈现，得到 2,925 条标注实例。
定量分析 – 测量模型、语言资源水平（高资源 vs 低资源）以及故事设置（城市、郊区、农村）之间的错误率。
知识探测 – 将分类项目转化为 1,200 道多项选择题（TALES‑QA），在不涉及故事生成的情况下评估相同模型的事实回忆能力。

产品团队 在为印度市场构建 AI 驱动的故事讲述、聊天机器人或虚拟助理时，应集成文化验证层（例如使用 TALES‑Tax 或 TALES‑QA 进行生成后检查）。
提示工程：明确指定文化细节（地区、语言、习俗）可以减轻部分错误，但仍需系统性的防护措施。
微调与 RLHF：引入多元文化的高质量数据集以及基于文化感知的人类反馈的强化学习，可缩小知识‑生成鸿沟。
本地化流水线：对于多语言产品，优先提升低资源语言的数据质量和评估，以避免强化刻板印象。
合规与伦理：企业可使用 TALES‑Tax 作为审计清单，展示在文化敏感场景部署 LLM 时的负责任 AI 实践。