[논문] 코딩 에이전트가 우리를 속이나? 무작위 테스트와 제한된 평가로 부정 행위 탐지·방지

발행: 5일 전 (2026년 6월 6일 AM 12:20 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.07379v1

개요

에이전트 평가 및 학습에서 점점 더 흔해지는 실패 유형은 모델이 의도된 작업을 해결하는 대신 지름길을 이용해 높은 평가 점수를 얻어 속이는 성능을 보이는 경우입니다. 이는 평가 점수가 실제 작업 해결 능력을 측정하는 신뢰할 수 있는 지표가 아님을 의미합니다. 우리는 CapCode라는 프레임워크를 제안합니다. 이 프레임워크는 최적의 비부정 행위 성능이 의도적으로 1 이하로 제한된 무작위 테스트를 포함하는 코딩 데이터셋을 구성합니다. 이러한 상한 제한 설계는 평가 점수에 더 명확한 해석을 제공합니다: 상한을 크게 초과하는 점수는 비현실적이며 부정 행위의 증거가 됩니다. 부정 행위를 방지하기 위해 우리는 CapReward를 제안합니다. 이는 CapCode 원칙에 기반한 보상 설계로, 상한을 초과하는 최적화를 억제합니다. 여러 데이터셋에 대한 실험 결과, CapCode는 부정 행위를 탐지하면서 모델 간 성능 순위를 유지하고, CapReward는 부정 행위 행동을 감소시켜 모델이 의도된 작업 명세를 더 잘 따르게 함을 보여줍니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

cs.LG
cs.AI
cs.CL
stat.ME

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Thanawat Lodkaew
Johannes Ackermann
Soichiro Nishimori
Nontawat Charoenphakdee
Masashi Sugiyama
Takashi Ishida

논문 정보

arXiv ID: 2606.07379v1
분류: cs.LG, cs.AI, cs.CL, stat.ME
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] 코딩 에이전트가 우리를 속이나? 무작위 테스트와 제한된 평가로 부정 행위 탐지·방지

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 다중어 표현 분류: 감독 학습 vs 시연 기반 인컨텍스트 학습

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선