[논문] LongTraceRL: 루브릭 보상으로 검색 에이전트 궤적에서 장기 문맥 추론 학습
개요
대형 언어 모델(LLM)은 길고 잡음이 많은 문서를 뒤져 다단계 질문에 답해야 할 때 여전히 어려움을 겪는다. 새로운 LongTraceRL 프레임워크는 강화학습(RL)을 활용해 LLM이 단계별로 추론하도록 교육함으로써, 최종 답변뿐 아니라 중간 추론 과정(trace)의 품질에도 보상을 제공한다. 저자들은 이 접근법이 4 B 파라미터 정도의 작은 모델조차도 여러 어려운 장문 컨텍스트 벤치마크에서 눈에 띄게 성능을 향상시킨다는 것을 보여준다.
주요 기여
- 계층형 방해문서 생성: 두 단계의 “잡음”(검색 에이전트가 읽었지만 인용하지 않은 고혼동성 문서와 단순히 검색 결과에만 나타난 저혼동성 문서)으로 구성된 도전적인 학습 컨텍스트를 만든다.
- 루브릭 기반 보상: 각 추론 단계에 대해 세밀한 엔터티 수준 감독을 제공하며, 최종 답이 맞는 경우에만(양성 보상만) 적용한다.
- 확장 가능한 RL 파이프라인: 4 B에서 30 B 파라미터까지의 LLM에 적용 가능하며, 기존 RL‑from‑human‑feedback(RLHF) 스택에 쉽게 연결할 수 있다.
- 포괄적 평가: 다섯 개의 장문 추론 벤치마크 전반에 걸쳐 성능을 개선하고, 표준 RLVR 및 체인‑오브‑생각 파인튜닝과 같은 강력한 베이스라인을 능가한다.
- 오픈 리소스: 코드, 데이터셋, 사전학습 모델을 공개하여 재현성과 downstream 적용을 지원한다.
방법론
-
데이터 생성
- 지식 그래프(KG)를 시작점으로 무작위 워크를 수행해 다홉 질문‑답 쌍을 만든다.
- 각 홉마다 인간이 문서를 검색하는 방식을 모방하는 검색 에이전트를 실행한다.
- 에이전트의 궤적을 기록한다: 어떤 문서를 열었고, 어떤 문서를 인용했으며, 어떤 문서는 전혀 다루지 않았는지.
-
계층형 방해문서 조합
- 고혼동성 방해문서: 에이전트가 열었지만 인용하지 않은 문서(관련 있어 보이지만 실제로는 필요 없는 문서).
- 저혼동성 방해문서: 검색 결과에 나타났지만 전혀 열지 않은 문서(순수 잡음).
- 이들을 골드 증거 문서와 섞어 10 k 토큰을 초과하는 긴 컨텍스트를 구성하고, 실제 정보 과부하 상황을 정밀하게 재현한다.
-
루브릭 보상 설계
- 각 추론 체인에 대해 정답 엔터티(올바른 중