[논문] 추론 시 정렬을 위한 그래디언트 기반 보상 최적화

발행: (2026년 6월 9일 AM 12:33 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.09635v1

개요

대규모 언어 모델(LLM)의 분포 변동 상황에서 신뢰성을 보장하려면 추론 시 적응이 필요합니다. Best‑of‑$N$이나 거부 샘플링과 같은 추론 시 정렬 방법은 널리 사용되지만, 이들은 작업을 샘플링 집약적인 보상 기반 탐색으로 정의합니다. 이 접근 방식에는 두 가지 주요 제한이 있습니다. 첫째, 성능이 기본 모델의 생성 품질에 의해 제한되고, 둘째, 불완전한 보상 모델에 의존하기 때문에 보상 해킹에 취약합니다. 이러한 문제를 해결하기 위해 우리는 Gradient‑Guided Reward Optimization(GGRO)을 소개합니다. GGRO는 디코딩 과정에서 최소한의 개입을 수행하는 가벼운 추론 시 방법으로, 그래디언트 안내를 통해 목표 지점을 조정합니다. 구체적으로 GGRO는 토큰 수준 엔트로피를 모니터링해 드리프트나 정렬 오류를 나타내는 고불확실성 구역을 식별합니다. 해당 구역이 감지되면, 오프‑더‑쉘프 보상 모델에서 얻은 그래디언트 신호를 이용해 “nudging token”(유도 토큰)을 삽입함으로써 단순히 샘플을 재정렬하는 것이 아니라 생성 궤적을 직접 유도합니다. 실험 결과, GGRO는 안전성, 유용성, 추론 능력 벤치마크 전반에 걸쳐 추론 시 정렬을 일관되게 향상시켰으며, 고품질 응답의 커버리지를 확대하고 보상 해킹에 대한 강인성을 높였습니다. 또한 계산 오버헤드가 최소에 불과합니다. 코드는 https://github.com/lhk2004/GGRO 에서 확인할 수 있습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다.

  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Hankun Lin
  • Ruqi Zhang

논문 정보

  • arXiv ID: 2606.09635v1
  • 분류: cs.CL
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »