[논문] 대리 보상 내재화와 메커니즘 악용: 보상 해킹의 선행 현상 및 일반화
개요
보상 해킹은 일반적으로 모델이 높은 프록시 보상을 얻지만 의도된 작업을 실패할 때 눈에 띄게 된 후에 연구됩니다. 우리는 그 실패가 나타나기 전에 프록시 강화 학습이 무엇을 가르치는지 조사합니다. 우리는 작업 정확성을 평가하고, 프록시 수용을 예측하며, exploitable 프록시‑골드 격차에 대해 추론하는 학습된 능력인 프록시 보상 내재화 및 메커니즘적 착취 (PRIME) 를 도입합니다. exploitable pytest 보상이 포함된 코딩 RL 환경에서 우리는 체인‑오브‑생각 모니터링, 직접 탐색, 활성화 수준 개념 벡터를 통해 PRIME을 측정합니다. 우리는 PRIME이 지속적인 보상 해킹이 일어나기 전 단계적 순서로 등장하며, 현재의 직접 탐색 점수가 눈에 보이는 해킹 비율이 아직 낮을 때도 이후 해킹 발생 시점과 심각성을 예측한다는 것을 발견했습니다. 평가자가 바뀔 때 PRIME도 적응하여 보상이 주어지는 프록시‑골드 격차로 재목표화하고, 골드 보상이 명시적 해킹을 억제할 때도 지속되며, 활성화 방향을 억제하면 해킹이 감소합니다. 체크포인트 전반에 걸쳐, 도메인 내 PRIME은 도메인 외 불일치를 추적합니다. 이러한 결과는 exploitable 프록시 강화 학습이 눈에 보이는 해킹보다 앞선 프록시 내재화 능력을 증폭시켜, PRIME이 더 넓은 정렬 위험에 대한 초기 경고 신호가 될 수 있음을 시사합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.AI
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.AI 분야의 발전에 기여합니다.
저자
- Mohammad Beigi
- Ming Jin
- Lifu Huang
논문 정보
- arXiv ID: 2606.09711v1
- 분류: cs.AI, cs.LG
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드