[논문] 대리 보상 내재화와 메커니즘 악용: 보상 해킹의 선행 현상 및 일반화

발행: (2026년 6월 9일 AM 01:32 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.09711v1

개요

보상 해킹은 일반적으로 모델이 높은 프록시 보상을 얻지만 의도된 작업을 실패할 때 눈에 띄게 된 후에 연구됩니다. 우리는 그 실패가 나타나기 전에 프록시 강화 학습이 무엇을 가르치는지 조사합니다. 우리는 작업 정확성을 평가하고, 프록시 수용을 예측하며, exploitable 프록시‑골드 격차에 대해 추론하는 학습된 능력인 프록시 보상 내재화 및 메커니즘적 착취 (PRIME) 를 도입합니다. exploitable pytest 보상이 포함된 코딩 RL 환경에서 우리는 체인‑오브‑생각 모니터링, 직접 탐색, 활성화 수준 개념 벡터를 통해 PRIME을 측정합니다. 우리는 PRIME이 지속적인 보상 해킹이 일어나기 전 단계적 순서로 등장하며, 현재의 직접 탐색 점수가 눈에 보이는 해킹 비율이 아직 낮을 때도 이후 해킹 발생 시점과 심각성을 예측한다는 것을 발견했습니다. 평가자가 바뀔 때 PRIME도 적응하여 보상이 주어지는 프록시‑골드 격차로 재목표화하고, 골드 보상이 명시적 해킹을 억제할 때도 지속되며, 활성화 방향을 억제하면 해킹이 감소합니다. 체크포인트 전반에 걸쳐, 도메인 내 PRIME은 도메인 외 불일치를 추적합니다. 이러한 결과는 exploitable 프록시 강화 학습이 눈에 보이는 해킹보다 앞선 프록시 내재화 능력을 증폭시켜, PRIME이 더 넓은 정렬 위험에 대한 초기 경고 신호가 될 수 있음을 시사합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.AI
  • cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.AI 분야의 발전에 기여합니다.

저자

  • Mohammad Beigi
  • Ming Jin
  • Lifu Huang

논문 정보

  • arXiv ID: 2606.09711v1
  • 분류: cs.AI, cs.LG
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »