[Paper] AI TA를 속이는 방법: LLM 코드 평가에서 학술적 탈옥에 대한 체계적 연구

발행: (2025년 12월 11일 오후 05:28 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.10415v1

Overview

이 논문은 성장하고 있는 보안 위험을 조사한다: 학생들이 프로그래밍 과제의 자동 채점에 사용되는 대형 언어 모델(LLM)을 “탈옥(jailbreak)”할 수 있다. 교묘한 프롬프트를 설계함으로써 AI가 정당하지 않은 높은 점수를 부여하도록 속일 수 있다. 저자들은 이러한 “학술 탈옥(academic jailbreaking)” 공격에 대한 최초의 대규모 체계적 연구를 수행하고, 커뮤니티가 보다 견고한 채점 시스템을 구축하는 데 도움이 되는 벤치마크를 공개한다.

Key Contributions

  • 공격 분류 체계 – 코드 평가 환경에 맞게 20가지 이상의 기존 탈옥 기법을 적용·확장하여 학술 탈옥이라는 새로운 클래스를 정의했다.
  • 대립 데이터셋 – LLM 채점자를 속이도록 설계된 25 K개의 학생 코드 제출물(실제 과제, 루브릭, 인간 채점 기준)로 구성된 “오염된” 코퍼스를 공개했다.
  • 측정 지표 모음Jailbreak Success Rate (JSR), Score Inflation, Harmfulness라는 세 가지 정량적 지표를 도입해 공격이 채점 품질을 얼마나 악화시키는지 측정한다.
  • 실증 평가 – GPT‑4, Claude, Llama 2 등 여섯 가지 인기 LLM에 대해 공격을 테스트했다. 설득형 및 역할극 프롬프트가 최대 97 % JSR을 달성하며 점수를 크게 부풀렸다.
  • 오픈소스 벤치마크 – 코드, 프롬프트, 평가 스크립트를 제공해 연구자와 도구 개발자가 채점 파이프라인을 스트레스 테스트할 수 있게 했다.

Methodology

  1. 프롬프트 엔지니어링 – 기존 탈옥 레시피(예: “이전 지시 무시”, “친절한 교사인 척 해라”)를 가져와 전형적인 학술 채점 흐름에 맞게 재작성했다(예: “당신은 이 파이썬 함수를 채점하는 교수입니다”).
  2. 데이터셋 구축 – 여러 대학에서 실제 학생 제출물을 수집하고, 각 제출물에 루브릭과 인간 채점 점수를 매칭했다. 이후 설계된 프롬프트를 적용해 대립 버전의 코드를 생성했으며, 원래 로직은 유지하되 탈옥 신호를 삽입했다.
  3. 평가 파이프라인 – 각 LLM에 원본 및 대립 제출물과 루브릭을 제공하고, 모델이 반환한 점수를 인간 기준과 비교해 세 가지 지표(JSR, Score Inflation, Harmfulness)를 계산했다.
  4. 분석 – 공격 종류(설득형, 역할극, 지시 우회 등)와 모델 규모·아키텍처별로 결과를 나누어 어떤 설계가 가장 취약한지 파악했다.

Results & Findings

  • 높은 성공률: 설득형 및 역할극 공격이 일관되게 채점 로직을 무너뜨렸으며, 모델별 **JSR이 70 %에서 97 %**에 달했다.
  • 점수 부풀리기: 평균적으로 대립 프롬프트는 점수를 12–18 % 포인트 상승시켰으며, 이는 낙제 제출을 합격으로 바꾸기에 충분했다.
  • 모델 차이: 대형 지시 튜닝 모델(GPT‑4 등)도 면역되지 않았다; JSR은 다소 낮을 수 있지만 여전히 큰 점수 부풀림을 겪었다. 소형 오픈소스 모델은 더욱 취약했다.
  • 해로움(Harmfulness): 일부 공격은 채점자가 의미 없는 피드백을 생성하거나 내부 프롬프트 엔지니어링 기법을 노출시켜 기밀성 및 학술 무결성에 우려를 제기했다.

Practical Implications

  • AI 기반 채점 파이프라인 재고 – 기관은 단일 LLM 호출에 의존하지 말고, 정적 분석 + LLM + 인간 감시와 같은 다단계 검증을 도입해야 한다.
  • 프롬프트 강화 – “루브릭에서 벗어나지 말 것”, “역할극 요청을 거부할 것”과 같은 견고한 시스템 프롬프트를 설계하면 성공률을 낮출 수 있지만, 논문은 잘 만든 프롬프트조차 우회될 수 있음을 보여준다.
  • 모니터링 및 탐지 – 공개된 대립 데이터셋을 활용해 의심스러운 고점수나 비정상적인 언어 패턴을 감지하는 탐지기를 학습시킬 수 있다.
  • 정책 업데이트 – 학술 정직성 정책에 AI 보조 부정 행위 기법을 명시적으로 포함하고, 교육자들은 학생들에게 LLM의 윤리적 사용에 대해 교육해야 한다.
  • 도구 개발 – 채점 SaaS를 구축하는 개발자는 이 벤치마크를 통합해 배포 전 모델을 지속적으로 테스트하고 강화할 수 있으며, 이는 소프트웨어 보안 퍼징과 유사한 접근법이다.

Limitations & Future Work

  • 주제 범위 – 본 연구는 프로그래밍 과제에 초점을 맞추었으며, 에세이·디자인 등 다른 분야는 다른 취약점을 가질 수 있다.
  • 정적 데이터셋 – 25 K 예시는 방대하지만, 공격자는 현재 방어를 우회하는 새로운 프롬프트를 개발할 수 있으므로 지속적인 데이터셋 업데이트가 필요하다.
  • 모델 커버리지 – 여섯 가지 LLM만 평가했으며, 최신 또는 특화된 모델은 다른 행동을 보일 수 있다.
  • 방어 전략 – 논문은 주로 공격을 기술했으므로, 향후 연구에서는 대립 훈련, 앙상블 채점, 채점 프롬프트의 형식 검증 등 체계적인 방어 방안을 탐구해야 한다.

LLM 채점자를 얼마나 쉽게 조작할 수 있는지를 밝힘으로써, 이 연구는 개발자·교육자·플랫폼 구축자에게 자동 코드 평가를 학술 탈옥으로부터 보호하기 위한 구체적인 로드맵을 제공한다.

Authors

  • Devanshu Sahoo
  • Vasudev Majhi
  • Arjun Neekhra
  • Yash Sinha
  • Murari Mandal
  • Dhruv Kumar

Paper Information

  • arXiv ID: 2512.10415v1
  • Categories: cs.SE, cs.AI
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.