[Paper] 如何欺骗你的 AI TA：对 LLM 代码评估中的学术越狱的系统研究

发布: 1个月前 (2025年12月11日 GMT+8 16:28)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10415v1

概览

本文调查了一种日益增长的安全风险：学生可以对用于自动批改编程作业的大型语言模型（LLM）进行“越狱”。通过精心设计的提示，他们能够欺骗 AI 给出超出实际水平的高分。作者开展了首次大规模、系统化的“学术越狱”攻击研究，并发布了一个基准，帮助社区构建更稳健的评分系统。

攻击分类法 – 将 20 多种已知的 jailbreak 技术适配并扩展到代码评估场景，定义了一个新类别 academic jailbreaking（学术越狱）。
对抗数据集 – 发布了一个包含 25 K 条学生代码提交（真实课程作业、评分细则和人工评分参考）的“中毒”语料库，专门用于欺骗 LLM 评分器。
度量套件 – 引入了三项量化指标：Jailbreak Success Rate (JSR)（越狱成功率）、Score Inflation（分数膨胀）和 Harmfulness（有害性），用于衡量攻击对评分质量的破坏程度。
实证评估 – 在六种主流 LLM（如 GPT‑4、Claude、Llama 2）上测试攻击。说服性和角色扮演提示实现了 最高 97 % JSR，显著导致分数膨胀。
开源基准 – 提供代码、提示模板和评估脚本，供研究者和工具开发者对其评分流水线进行压力测试。

提示工程 – 作者采用已有的 jailbreak 配方（如 “忽略之前的指令”、 “假装你是一个乐于助人的老师”），并改写以适配典型的学术评分工作流（如 “你是一名教授，正在评分这段 Python 函数”。）
数据集构建 – 收集了多所大学的真实学生提交，每条都配有评分细则和人工评分。随后使用设计好的提示生成对抗版本的代码，保持原有逻辑但嵌入越狱线索。
评估流水线 – 将原始提交和对抗提交连同评分细则一起输入每个 LLM。模型返回的分数与人工基准比较，并计算三项指标（JSR、Score Inflation、Harmfulness）。
分析 – 按攻击家族（说服性、角色扮演、指令绕过等）以及模型规模/架构进行结果拆解，找出最易受攻击的设计。

通过揭示 LLM 评分器易被操纵的事实，本研究为开发者、教育者和平台构建者提供了一条明确的路线图，以防止自动代码评估遭受学术越狱攻击。