[Paper] KNIGHT：基于知识图谱的多项选择题生成与自适应难度校准

发布: 3天前 (2026年2月24日 GMT+8 02:46)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.20135v1

概述

本文提出了 KNIGHT，一个框架，可将任何文本来源（例如 Wikipedia）转化为可重复使用的知识图谱，然后利用大型语言模型（LLMs）按需生成高质量的多项选择题（MCQs）。通过将图谱构建与题目生成解耦，KNIGHT 能以低成本、快速地生成规模庞大、难度可控的 MCQ 数据集，用于评估 Retrieval‑Augmented Generation (RAG) 系统以及其他基于 LLM 的应用。

关键贡献

图优先管道：从原始文档构建紧凑的、主题特定的知识图谱，使得能够快速进行“只读”选择题生成，而无需反复将完整源文本输入大型语言模型。
自适应难度校准：通过在图的深度和关系复杂度上进行导航，允许用户（或教师）指定难度级别，包括多跳推理题。
领域无关设计：适用于任何本体；作者在 Wikipedia/Wikidata 上进行演示，但相同的代码可用于企业知识库、教材或 API 文档。
全面质量评估：引入了五项标准的评分表（流畅性、明确性、相关性、选项唯一性、可回答性），并展示了 KNIGHT 生成的选择题在这些方面达到或超过人工制作的基准。
成本效益分析：量化了相较于朴素 LLM 提示的 token 和金钱节省，证明图复用策略在实验中将生成成本降低了最高 70 %。

方法论

Document Ingestion – 原始文本（例如，维基百科文章）被解析并链接到结构化知识库（Wikidata）。实体及其关系使用现成的实体链接和关系抽取模型进行提取。
Knowledge Graph Construction – 提取的三元组被组装成有向图，节点是实体（概念、日期、公式），边是语义关系（例如 born‑in、causes、part‑of）。对图进行裁剪，只保留最有信息量的连接，从而得到轻量化表示。
Difficulty Specification – 用户选择目标难度级别。对于“easy”问题，生成器抽样单跳边（直接事实）。对于“hard”问题，它会走 2‑3 跳，迫使 LLM 结合多个事实（多跳推理）。
Prompt Engineering – 将包含相关子图（以三元组列表形式）和期望难度的简洁提示发送给 LLM（例如 GPT‑4）。模型返回题干、四个选项以及正确答案。
Post‑processing & Validation – 自动检查强制执行五项质量标准；若出现歧义或重复选项，则重新生成。

因为图在第 2 步后是静态的，生成成千上万的问题只需向 LLM 发送小的子图，从而显著降低 token 使用量。

结果与发现

质量评分：在 6 个 MCQ 数据集（历史、生物、数学）中，KNIGHT 在流畅度上平均得分 4.6/5，明确性 4.8/5，相关性 4.5/5，选项唯一性 4.7/5，答案可答性 4.4/5。
成本节约：相较于为每个问题提供完整源文本的基线，KNIGHT 将每题的平均 token 数量从约 1,200 降至约 350，降低约 68 % 的 API 成本。
难度校准：人工评估者在 82 % 的情况下正确识别出预期的难度水平，证实多跳图遍历能够生成真正更难的问题。
基准对齐：当使用生成的 MCQ 评估 LLM 时，得到的排名与已有的 MMLU‑style 基准（±1 名）相匹配，表明合成数据是对真实评估的可靠代理。

实际意义

快速测试集创建: 公司可以在数小时内而非数周内构建特定领域的选择题套件（例如内部知识库、产品文档），从而促进对 RAG 流水线的持续评估。
自适应训练课程: 教育平台可以自动生成练习测验，根据学习者的熟练程度通过选择合适的图深度进行适配。
成本效益模型审计: 审计员可以使用针对性的“难”问题探查大语言模型，而无需每次都重新处理大型语料库，从而避免高昂的计算成本。
跨领域可移植性: 由于该流水线仅需实体关系抽取器和知识库，开发者可以将 KNIGHT 应用于法律条文、医疗指南或软件 API 等细分领域。

限制与未来工作

图质量依赖：该方法会继承上游实体链接和关系抽取步骤中的任何错误；噪声图可能导致问题模糊或事实错误。
本体对齐：虽然声称领域无关，但当前实现假设有一个相对干净的层次化本体（如 Wikidata）。高度非结构化的语料库可能需要自定义模式设计。
多跳推理的可扩展性：随着跳数增加，子图规模会扩大，削弱部分 token 节省的优势。未来工作可以探索图摘要技术或层次化提示以保持提示简短。
人工验证循环：本研究依赖自动化指标加有限的人类审查。更大规模的用户研究将巩固对难度感知和教育效果的主张。

底线：KNIGHT 表明，对知识图谱的适度前期投入可以获得丰厚回报，使 LLM 成为低成本、随需应变的 MCQ 生成器，能够跟上现代 AI 产品快速迭代的节奏。

作者

Mohammad Amanlou
Erfan Shafiee Moghaddam
Yasaman Amou Jafari
Mahdi Noori
Farhan Farsi
Behnam Bahrak

论文信息

arXiv ID: 2602.20135v1
分类: cs.CL, cs.AI, cs.IR
出版时间: 2026年2月23日
PDF: 下载 PDF

[Paper] KNIGHT：基于知识图谱的多项选择题生成与自适应难度校准

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

[Paper] 当 AI 写作时，谁的声音仍在？量化大型语言模型中对 World English Varieties 的文化标记抹除

[Paper] NoLan：通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉