[Paper] AncientBench:面向已发掘和已传承中文语料库的全面评估
发布: (2025年12月20日 GMT+8 00:28)
6 min read
原文: arXiv
Source: arXiv - 2512.17756v1
概述
本文介绍了 AncientBench,一个新的评估套件,旨在测试大型语言模型(LLM)对出土和传世中文古文的理解程度。通过覆盖从字形到语境意义的各个层面,该基准填补了当前中文 NLP 资源的显著空白——这些资源几乎只关注现代语言或文学经典。
关键贡献
- 首个针对出土中文语料的综合基准——捕捉古代铭文、竹简及其他考古文物的独特挑战。
- 四维能力框架——评估字形、发音、语义和语境理解。
- 十种多样任务类型(部首识别、声旁匹配、同音字检测、填空、翻译等),共同构成整体测试平台。
- 基线“古代模型”,在历史数据上微调,为后续工作提供参考点。
- 对最先进的大语言模型进行广泛评估(如 GPT‑4、Claude、LLaMA),并与专家考古学家对比,揭示其优势与仍存的不足。
方法论
- 语料库构建 – 作者收集了传世(规范)和出土(碑刻)中文文本的平衡混合,跨越多个朝代。
- 任务设计 – 四个理解维度分别通过具体任务实现:
- 字形: 识别部首、笔画,或按视觉构件对汉字进行分类。
- 发音: 将汉字映射到语音部首或检测同音字。
- 意义: 完形填空、同义/反义判断以及简短翻译。
- 语境: 篇章层面的推理、时间顺序排序以及实体链接。
- 人工基准 – 由考古学家和汉学家组成的小组对测试集进行标注,并提供金标准答案。
- 模型评估 – 将新训练的古文模型和多个主流大语言模型都以相同任务进行提示;计算性能指标(准确率、F1、翻译的BLEU),并与人工得分进行比较。
结果与发现
- LLM 出乎意料地强大:GPT‑4 在传抄文本上的准确率约为人类的 78%,但在出土材料上下降至约 55%。
- 字形任务仍是最难的:即使是最好的 LLM 在受损字符的部首识别上也表现挣扎,表明需要视觉‑符号推理。
- 发音理解相对较强:模型在匹配语音部首时正确率超过 80%,可能受益于大型多语言语音语料库。
- 上下文推断滞后:段落层面的任务显示出最大的人机差距(约 30% 的绝对差异),反映出对碎片化历史叙事的接触有限。
- Ancient Model 基线 在字形和同音任务上优于通用 LLM,证实了领域特定微调的价值。
实际意义
- 考古工作流 – 自动化的字形识别和初步翻译可以加速新出土铭文的编目,让学者有更多时间进行更高层次的分析。
- 文化遗产技术 – 博物馆和数字档案馆可以将通过 AncientBench 验证的模型嵌入互动展览,为参观者提供实时的古文字解释。
- 大语言模型产品开发 – 构建多语言助理的公司可以将 AncientBench 用作罕见语言处理的压力测试,确保模型在现代语料库之外也具备鲁棒性。
- 教育与公众推广 – 语言学习平台可以加入古汉语模块,利用已通过基准测试的模型生成真实的练习材料。
限制与未来工作
- 数据稀疏 – 出土文本本质上是碎片化的;该基准仍仅覆盖有限的文字系统(例如甲骨文、青铜器铭文、竹简),可能无法推广到所有铭刻形式。
- 视觉信息 – 目前的评估将字符视为 Unicode 令牌;整合基于图像的字形特征可能提升对受损或风格化铭文的性能。
- 跨方言音系 – 该基准假设统一的历史发音,这简化了考古学家常需考虑的地区变体。
- 可扩展性 – 将 AncientBench 扩展到其他古代语言(例如古典日语、梵语)将检验所提出的四维框架的普遍性。
AncientBench 为大型语言模型从现代聊天机器人转向真正的伙伴,帮助破译人类最古老的书面记录打开了大门。开发者和研究者现在拥有了衡量进展的具体尺度——以及下一波具历史意识的 AI 的清晰路线图。
作者
- Zhihan Zhou
- Daqian Shi
- Rui Song
- Lida Shi
- Xiaolei Diao
- Hao Xu
论文信息
- arXiv ID: 2512.17756v1
- 分类: cs.CL, cs.AI
- 发表时间: 2025年12月19日
- PDF: 下载 PDF