[Paper] 如何欺骗你的 AI TA:对 LLM 代码评估中的学术越狱的系统研究

发布: (2025年12月11日 GMT+8 16:28)
7 min read
原文: arXiv

Source: arXiv - 2512.10415v1

概览

本文调查了一种日益增长的安全风险:学生可以对用于自动批改编程作业的大型语言模型(LLM)进行“越狱”。通过精心设计的提示,他们能够欺骗 AI 给出超出实际水平的高分。作者开展了首次大规模、系统化的“学术越狱”攻击研究,并发布了一个基准,帮助社区构建更稳健的评分系统。

关键贡献

  • 攻击分类法 – 将 20 多种已知的 jailbreak 技术适配并扩展到代码评估场景,定义了一个新类别 academic jailbreaking(学术越狱)。
  • 对抗数据集 – 发布了一个包含 25 K 条学生代码提交(真实课程作业、评分细则和人工评分参考)的“中毒”语料库,专门用于欺骗 LLM 评分器。
  • 度量套件 – 引入了三项量化指标:Jailbreak Success Rate (JSR)(越狱成功率)、Score Inflation(分数膨胀)和 Harmfulness(有害性),用于衡量攻击对评分质量的破坏程度。
  • 实证评估 – 在六种主流 LLM(如 GPT‑4、Claude、Llama 2)上测试攻击。说服性和角色扮演提示实现了 最高 97 % JSR,显著导致分数膨胀。
  • 开源基准 – 提供代码、提示模板和评估脚本,供研究者和工具开发者对其评分流水线进行压力测试。

方法论

  1. 提示工程 – 作者采用已有的 jailbreak 配方(如 “忽略之前的指令”、 “假装你是一个乐于助人的老师”),并改写以适配典型的学术评分工作流(如 “你是一名教授,正在评分这段 Python 函数”。)
  2. 数据集构建 – 收集了多所大学的真实学生提交,每条都配有评分细则和人工评分。随后使用设计好的提示生成 对抗 版本的代码,保持原有逻辑但嵌入越狱线索。
  3. 评估流水线 – 将原始提交和对抗提交连同评分细则一起输入每个 LLM。模型返回的分数与人工基准比较,并计算三项指标(JSR、Score Inflation、Harmfulness)。
  4. 分析 – 按攻击家族(说服性、角色扮演、指令绕过等)以及模型规模/架构进行结果拆解,找出最易受攻击的设计。

结果与发现

  • 高成功率:说服性和角色扮演攻击始终能够破坏评分逻辑,JSR 在 70 % 到 97 % 之间,跨模型表现一致。
  • 分数膨胀:平均而言,对抗提示将成绩提升 12–18 %,足以把不及格的提交变为及格。
  • 模型差异:更大、经过指令微调的模型(如 GPT‑4)并非免疫;它们的 JSR 稍低,但仍出现显著的分数膨胀。较小的开源模型更为脆弱。
  • 有害性:部分攻击导致评分器给出荒谬的反馈或泄露内部提示工程技巧,带来机密性和学术诚信方面的担忧。

实际意义

  • 重新思考 AI 评分流水线 – 学校不应仅依赖单次 LLM 调用;需要多步骤验证(如静态分析 + LLM + 人工审查)。
  • 提示硬化 – 设计更稳健的系统提示(如 “绝不偏离评分细则”、 “拒绝角色扮演请求”)可以降低成功率,但本文表明即便是精心构造的提示仍可被绕过。
  • 监控与检测 – 已发布的对抗数据集可用于训练检测器,标记异常高分或学生提交中出现的异常语言模式。
  • 政策更新 – 学术诚信政策可能需要明确涵盖 AI 辅助作弊手段,教师也应教育学生正确、伦理地使用 LLM。
  • 工具开发 – 构建评分 SaaS 的开发者可以将该基准集成到持续测试与硬化流程中,类似于软件安全的模糊测试。

局限性与未来工作

  • 学科范围 – 本研究聚焦于编程作业;其他领域(如论文、设计)可能存在不同的脆弱点。
  • 静态数据集 – 虽然 25 K 条样本已相当丰富,攻击者仍可能研发新提示绕过当前防御,需要持续更新数据集。
  • 模型覆盖 – 仅评估了六种 LLM;更新或更专业的模型可能表现不同。
  • 防御策略 – 本文主要描述攻击;未来工作应探索系统化防御(如对抗训练、集成评分)以及对评分提示的形式化验证。

通过揭示 LLM 评分器易被操纵的事实,本研究为开发者、教育者和平台构建者提供了一条明确的路线图,以防止自动代码评估遭受学术越狱攻击。

作者

  • Devanshu Sahoo
  • Vasudev Majhi
  • Arjun Neekhra
  • Yash Sinha
  • Murari Mandal
  • Dhruv Kumar

论文信息

  • arXiv ID: 2512.10415v1
  • Categories: cs.SE, cs.AI
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »