[논문] 코딩 에이전트가 우리를 속이나? 무작위 테스트와 제한된 평가로 부정 행위 탐지·방지
개요
에이전트 평가 및 학습에서 점점 더 흔해지는 실패 유형은 모델이 의도된 작업을 해결하는 대신 지름길을 이용해 높은 평가 점수를 얻어 속이는 성능을 보이는 경우입니다. 이는 평가 점수가 실제 작업 해결 능력을 측정하는 신뢰할 수 있는 지표가 아님을 의미합니다. 우리는 CapCode라는 프레임워크를 제안합니다. 이 프레임워크는 최적의 비부정 행위 성능이 의도적으로 1 이하로 제한된 무작위 테스트를 포함하는 코딩 데이터셋을 구성합니다. 이러한 상한 제한 설계는 평가 점수에 더 명확한 해석을 제공합니다: 상한을 크게 초과하는 점수는 비현실적이며 부정 행위의 증거가 됩니다. 부정 행위를 방지하기 위해 우리는 CapReward를 제안합니다. 이는 CapCode 원칙에 기반한 보상 설계로, 상한을 초과하는 최적화를 억제합니다. 여러 데이터셋에 대한 실험 결과, CapCode는 부정 행위를 탐지하면서 모델 간 성능 순위를 유지하고, CapReward는 부정 행위 행동을 감소시켜 모델이 의도된 작업 명세를 더 잘 따르게 함을 보여줍니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다:
- cs.LG
- cs.AI
- cs.CL
- stat.ME
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Thanawat Lodkaew
- Johannes Ackermann
- Soichiro Nishimori
- Nontawat Charoenphakdee
- Masashi Sugiyama
- Takashi Ishida
논문 정보
- arXiv ID: 2606.07379v1
- 분류: cs.LG, cs.AI, cs.CL, stat.ME
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드