[Paper] KNIGHT:基于知识图谱的多项选择题生成与自适应难度校准

发布: (2026年2月24日 GMT+8 02:46)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.20135v1

概述

本文提出了 KNIGHT,一个框架,可将任何文本来源(例如 Wikipedia)转化为可重复使用的知识图谱,然后利用大型语言模型(LLMs)按需生成高质量的多项选择题(MCQs)。通过将图谱构建与题目生成解耦,KNIGHT 能以低成本、快速地生成规模庞大、难度可控的 MCQ 数据集,用于评估 Retrieval‑Augmented Generation (RAG) 系统以及其他基于 LLM 的应用。

关键贡献

  • 图优先管道:从原始文档构建紧凑的、主题特定的知识图谱,使得能够快速进行“只读”选择题生成,而无需反复将完整源文本输入大型语言模型。
  • 自适应难度校准:通过在图的深度和关系复杂度上进行导航,允许用户(或教师)指定难度级别,包括多跳推理题。
  • 领域无关设计:适用于任何本体;作者在 Wikipedia/Wikidata 上进行演示,但相同的代码可用于企业知识库、教材或 API 文档。
  • 全面质量评估:引入了五项标准的评分表(流畅性、明确性、相关性、选项唯一性、可回答性),并展示了 KNIGHT 生成的选择题在这些方面达到或超过人工制作的基准。
  • 成本效益分析:量化了相较于朴素 LLM 提示的 token 和金钱节省,证明图复用策略在实验中将生成成本降低了最高 70 %。

方法论

  1. Document Ingestion – 原始文本(例如,维基百科文章)被解析并链接到结构化知识库(Wikidata)。实体及其关系使用现成的实体链接和关系抽取模型进行提取。
  2. Knowledge Graph Construction – 提取的三元组被组装成有向图,节点是实体(概念、日期、公式),边是语义关系(例如 born‑incausespart‑of)。对图进行裁剪,只保留最有信息量的连接,从而得到轻量化表示。
  3. Difficulty Specification – 用户选择目标难度级别。对于“easy”问题,生成器抽样单跳边(直接事实)。对于“hard”问题,它会走 2‑3 跳,迫使 LLM 结合多个事实(多跳推理)。
  4. Prompt Engineering – 将包含相关子图(以三元组列表形式)和期望难度的简洁提示发送给 LLM(例如 GPT‑4)。模型返回题干、四个选项以及正确答案。
  5. Post‑processing & Validation – 自动检查强制执行五项质量标准;若出现歧义或重复选项,则重新生成。

因为图在第 2 步后是静态的,生成成千上万的问题只需向 LLM 发送小的子图,从而显著降低 token 使用量。

结果与发现

  • 质量评分:在 6 个 MCQ 数据集(历史、生物、数学)中,KNIGHT 在流畅度上平均得分 4.6/5,明确性 4.8/5,相关性 4.5/5,选项唯一性 4.7/5,答案可答性 4.4/5。
  • 成本节约:相较于为每个问题提供完整源文本的基线,KNIGHT 将每题的平均 token 数量从约 1,200 降至约 350,降低约 68 % 的 API 成本。
  • 难度校准:人工评估者在 82 % 的情况下正确识别出预期的难度水平,证实多跳图遍历能够生成真正更难的问题。
  • 基准对齐:当使用生成的 MCQ 评估 LLM 时,得到的排名与已有的 MMLU‑style 基准(±1 名)相匹配,表明合成数据是对真实评估的可靠代理。

实际意义

  • 快速测试集创建: 公司可以在数小时内而非数周内构建特定领域的选择题套件(例如内部知识库、产品文档),从而促进对 RAG 流水线的持续评估。
  • 自适应训练课程: 教育平台可以自动生成练习测验,根据学习者的熟练程度通过选择合适的图深度进行适配。
  • 成本效益模型审计: 审计员可以使用针对性的“难”问题探查大语言模型,而无需每次都重新处理大型语料库,从而避免高昂的计算成本。
  • 跨领域可移植性: 由于该流水线仅需实体关系抽取器和知识库,开发者可以将 KNIGHT 应用于法律条文、医疗指南或软件 API 等细分领域。

限制与未来工作

  • 图质量依赖:该方法会继承上游实体链接和关系抽取步骤中的任何错误;噪声图可能导致问题模糊或事实错误。
  • 本体对齐:虽然声称领域无关,但当前实现假设有一个相对干净的层次化本体(如 Wikidata)。高度非结构化的语料库可能需要自定义模式设计。
  • 多跳推理的可扩展性:随着跳数增加,子图规模会扩大,削弱部分 token 节省的优势。未来工作可以探索图摘要技术或层次化提示以保持提示简短。
  • 人工验证循环:本研究依赖自动化指标加有限的人类审查。更大规模的用户研究将巩固对难度感知和教育效果的主张。

底线:KNIGHT 表明,对知识图谱的适度前期投入可以获得丰厚回报,使 LLM 成为低成本、随需应变的 MCQ 生成器,能够跟上现代 AI 产品快速迭代的节奏。

作者

  • Mohammad Amanlou
  • Erfan Shafiee Moghaddam
  • Yasaman Amou Jafari
  • Mahdi Noori
  • Farhan Farsi
  • Behnam Bahrak

论文信息

  • arXiv ID: 2602.20135v1
  • 分类: cs.CL, cs.AI, cs.IR
  • 出版时间: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »