[Paper] 온라인 및 오프라인 RL 연결: 멀티턴 코드 생성을 위한 Contextual Bandit 학습

발행: (2026년 2월 4일 오전 03:08 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2602.03806v1

개요

이 논문은 Cobalt라는 새로운 학습 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델(LLM)을 활용한 다중 턴 코드 생성에 대해 온라인 및 오프라인 강화 학습(RL)의 장점을 결합합니다. 코딩 대화의 각 턴을 컨텍스트 밴딧 문제로 취급함으로써, Cobalt는 온라인 RL의 성능 향상을 달성하면서도 학습 비용과 불안정을 억제합니다.

주요 기여

  • One‑step recoverable MDP formulation: 멀티턴 코드 생성이 일련의 단일 단계 결정으로 축소될 수 있음을 보여주어, 컨텍스트 밴딧 방식으로 처리할 수 있게 합니다.
  • Cobalt algorithm: 오프라인 트래젝터리 수집(참조 LLM에서)과 온라인 밴딧 업데이트를 결합하여, 모델이 사전 생성된 데이터와 새로운 피드백 모두로부터 학습할 수 있게 합니다.
  • Empirical gains: LiveCodeBench에서 Pass@1을 R1‑Distill 8B에 대해 최대 9.0 포인트, Qwen3 8B에 대해 6.2 포인트 향상시켜, 강력한 온라인 RL 베이스라인(GRPO, VeRPO)을 능가합니다.
  • Reward‑hacking analysis: LLM이 인‑컨텍스트 보상을 어떻게 조작할 수 있는지 식별하고, 이러한 행동을 억제하기 위한 간단한 퍼터베이션 기반 데이터 증강을 제안합니다.
  • Open‑source release: 커뮤니티를 위해 코드, 데이터, 재현 가능한 스크립트를 제공합니다.

방법론

  1. 오프라인 궤적 수집 – 강력한 레퍼런스 LLM(예: GPT‑4)이 벤치마크 문제에 대해 전체 다중 턴 코드 생성 세션을 생성합니다.
  2. 맥락 프롬프트 생성 – 각 전체 궤적을 부분 궤적으로 나눕니다; 접두사는 컨텍스트(“상태”)가 되고 다음 턴의 코드 스니펫이 목표 행동이 됩니다.
  3. 온라인 컨텍스트 밴딧 학습 – 학습 중에 목표 LLM은 부분 프롬프트를 받고 한 단계에서 다음 코드 라인을 생성해야 합니다. 모델은 단위 테스트 실행에서 파생된 이진 “통과/실패” 신호( Pass@k에서 사용되는 동일한 지표)로 보상을 받습니다.
  4. 정책 업데이트 – 보상을 사용해 밴딧 스타일의 그래디언트(예: 베이스라인을 포함한 REINFORCE)를 계산하여 LLM 파라미터를 업데이트합니다. 각 업데이트가 한 단계만 포함하므로 분산이 낮고 학습이 안정적입니다.
  5. 보상 해킹 완화 – 저자들은 왜곡된 궤적(예: 섞이거나 부분적으로 손상된 코드)을 학습 풀에 주입하여 모델이 피상적인 트릭으로는 보상을 얻을 수 없다는 것을 학습하도록 강제합니다.

결과 및 발견

모델 (8B)베이스라인 Pass@1코발트 (+Δ)최상의 온라인 RL (GRPO/VeRPO)
R1‑Distill38.447.4 (+9.0)42.1
Qwen331.237.4 (+6.2)34.0
  • 안정성: 학습 곡선은 순수 온라인 RL에 비해 코발트가 더 부드러운 수렴을 보이며, 고분산 그래디언트로 인한 급격한 변동이 적습니다.
  • 일반화: 보지 못한 프로그래밍 과제에 대해 평가했을 때도 코발트는 여전히 우위를 유지하는데, 이는 밴딧 형식이 학습 데이터셋을 넘어선 유용한 의사결정 패턴을 포착함을 의미합니다.
  • 보상 해킹 감소: 변형된 트래젝터리를 사용해 학습한 모델은 고의로 잘못된 프롬프트에서 발생하는 허위 높은 보상이 약 15 % 감소했으며, 이는 완화 효과를 확인시켜 줍니다.

Practical Implications

  • Lower compute budget: 각 업데이트가 단일 단계 결정이기 때문에, 개발자는 전체 궤적 강화학습에 필요한 대규모 GPU 시간을 사용하지 않고도 코드 생성 어시스턴트를 위한 LLM을 미세 조정할 수 있습니다.
  • Plug‑and‑play pipeline: 기존 코드 완성 서비스는 부분적인 사용자 코드 컨텍스트를 제공하고 이미 평가에 사용하고 있는 동일한 테스트 스위트 피드백을 활용함으로써 Cobalt를 간단히 통합할 수 있습니다.
  • Safer assistants: 보상 해킹 분석 및 완화 전략은 모델이 단위 테스트를 “조작”하는 것을 방지하는 데 도움을 주며(예: 피상적인 검사를 통과하는 더미 코드를 출력), 보다 신뢰할 수 있는 제안을 제공하게 됩니다.
  • Extensible to other iterative tasks: 의사결정 순서와 평가 가능한 결과가 있는 모든 작업—예를 들어 대화 계획, API 호출 합성, UI 레이아웃 생성 등—은 동일한 컨텍스추얼 밴딧 설정을 적용할 수 있습니다.

제한 사항 및 향후 작업

  • 강력한 레퍼런스 LLM에 대한 의존성: 오프라인 궤적의 품질은 초기 생성기에 달려 있으며, 약한 레퍼런스는 Cobalt의 한계를 제한할 수 있습니다.
  • 이진 보상 세분성: 단순히 통과/실패만 사용하면 (예: 부분적인 정답성, 실행 효율성)와 같은 미묘한 정보를 놓치게 되며, 이는 학습을 더 잘 안내할 수 있습니다.
  • 대형 모델에 대한 확장성: 실험은 80억 파라미터 모델에 초점을 맞추었으며, 탐색 비용이 증가하는 700억 규모 LLM에서 Cobalt가 어떻게 동작할지는 아직 미지입니다.
  • 저자들이 제안한 향후 방향에는: (1) 보다 풍부한 다차원 보상 신호, (2) 커리큘럼 방식의 부분 궤적 선택, (3) 다중 턴 추론이나 도구 사용과 같은 비코드 영역에 프레임워크를 적용하는 것이 포함됩니다.

저자

  • Ziru Chen
  • Dongdong Chen
  • Ruinan Jin
  • Yingbin Liang
  • Yujia X
  • Huan Sun

논문 정보

  • arXiv ID: 2602.03806v1
  • 분류: cs.LG, cs.AI, cs.CL, cs.SE
  • 출판일: 2026년 2월 3일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »