[Paper] 作者已逝，但如果他们从未活着呢？一次关于捷克 AI 与人类创作诗歌的接受实验

发布: 2个月前 (2025年11月27日 GMT+8 01:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21629v1

概览

最近的一项研究调查了以捷克语为母语的参与者是否能够区分人类创作的诗歌与大型语言模型（LLM）生成的诗歌。令人惊讶的是，参与者仅约有一半的时间能够正确判断作者身份，而他们的审美评分则受到对诗歌来源的信念的强烈影响。该工作表明，即使在形态学丰富、资源匮乏的语言（如捷克语）中，现代 LLM 也能够生成令人信服的创意文本。

关键贡献

跨语言创意测试： 首次系统性评估捷克语（在 LLM 训练数据中代表性不足）的 AI 生成诗歌。
作者检测接近随机水平： 参与者仅以 45.8 % 的准确率辨别 AI 与人类诗歌。
审美判断中的作者偏见： 当一首诗被认为是 AI 生成时，其评分会下降，尽管实际的 AI 诗歌得分与人类诗歌相当甚至更高。
统计洞察： 逻辑回归显示，对诗歌的愉悦感越高，正确判断作者的可能性越低；文学专业背景未表现出可测量的影响。
对人机交互的启示： 证明对文本来源的信念会塑造感知质量，这一现象对内容审核、教育以及创意协作工具具有重要意义。

方法论

语料库构建 – 作者收集了平衡的捷克语诗歌集合：一半由当代捷克诗人创作，另一半由在捷克文本上微调的最先进 LLM 生成。
参与者招募 – 在线招募了 200 名捷克语母语者（年龄、教育水平和诗歌熟悉度各不相同）。
实验设计 – 每位参与者随机阅读若干诗歌，并对每首诗完成两项任务：
- 作者猜测： “Human” 或 “AI?”
- 审美评分： 使用 1–7 的李克特量表评估整体质量、情感冲击和语言优雅度。
数据分析 – 将准确率与随机水平比较，并使用混合效应逻辑回归模型审美分数、参与者背景与作者猜测正确性的关系。

该设计避免使用技术术语：可以把它想象成一次诗歌的“盲品测试”，其中“配料”要么是人类手工创作，要么是 AI 烹饪，评审们还要给每道“菜”打分。

结果与发现

作者检测： 正确率 45.8 %（≈ 随机水平）。文学训练背景的参与者没有显著优势。
审美分数： 当参与者认为诗歌是 AI 生成时，平均在 7 分制上低 0.6 分，尽管实际的 AI 诗歌得分与人类诗歌持平。
回归结果： 随着参与者的愉悦评分上升，正确猜测作者的概率下降（β = ‑0.42，p < 0.01）。
无熟悉度效应： 多年阅读诗歌或拥有文学学位并未提升检测准确率。

通俗来说：人们喜欢这些诗歌，但他们对作者的信念会影响判断。

实际意义

内容创作工具： 开发者可以将 LLM 生成的诗歌（或更广泛的创意文本）嵌入应用、新闻通讯或社交媒体机器人中，而用户不易立刻辨别其 AI 来源。
教育与文学分析： 教师应注意学生可能会因为感知到的作者身份而对 AI 生成作品进行不同的评估，这可能影响评分或批评实践。
品牌叙事： 企业可以尝试使用 AI 创作的标语、广告词或短诗，利用其“类人”质量，同时管理对真实性的期待。
偏见缓解： 标注 AI 生成内容的平台应考虑此类标签可能无意中降低感知质量，进而影响用户参与度指标。
多语言 AI 开发： 在捷克语取得的成功表明，对中等规模语料进行微调即可为其他低资源语言产出高质量创意输出，为本地化内容生成打开了大门。

局限性与未来工作

数据集规模与多样性： 诗歌集合相对较小且局限于当代风格；更广泛的体裁（如史诗、实验诗）可能产生不同的检测率。
模型细节： 本研究仅测试了一种 LLM 架构；使用其他模型或提示策略可能会得到不同结果。
文化细微差别： 虽然捷克语形态复杂，但仍与训练数据共享许多印欧语系特征；真正代表性不足的语言（如数字文本极少的少数民族语言）仍是未解之题。
长期感知： 本研究测量的是即时反应；未来工作可探讨持续接触 AI 诗歌如何塑造长期审美标准与信任。

总体而言，本文提供了一个引人注目的视角，展示了 AI 如何融入语言社区的文化结构，以及为何我们对作者身份的信念与文本本身同样重要。

作者

Anna Marklová
Ondřej Vinš
Martina Vokáčová
Jiří Milička

论文信息

arXiv ID: 2511.21629v1
Categories: cs.CL
Published: November 26, 2025
PDF: Download PDF

[Paper] 作者已逝，但如果他们从未活着呢？一次关于捷克 AI 与人类创作诗歌的接受实验

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

[Paper] 歧义感知优化：面向 Direct Preference Optimization 的语义消歧

[Paper] 被动基于专长的个性化足够吗？AI辅助考试的案例研究