[Paper] 장기 추론을 위한 재귀 모델

발행: 1일 전 (2026년 3월 3일 오전 02:37 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2603.02112v1

번역을 진행하려면 번역하고자 하는 본문 텍스트를 제공해 주시겠어요?
텍스트를 주시면 원본 형식과 마크다운을 유지하면서 한국어로 번역해 드리겠습니다.

개요

논문 **“Recursive Models for Long‑Horizon Reasoning”**은 오늘날 대형 언어 모델(LLM)의 근본적인 병목 현상을 해결합니다: 모델은 고정된 크기의 컨텍스트 윈도우 내에서만 추론할 수 있습니다. 모델이 스스로를 재귀적으로 호출하여 격리된 컨텍스트에서 작은 하위 문제들을 해결하도록 함으로써, 저자들은 “one‑shot” 제한을 깨고 진정한 장기 추론을 가능하게 하는 방법을 보여줍니다.

Source: …

핵심 기여

재귀 모델 아키텍처: LLM이 자신을 서브루틴으로 호출하고 각 하위 작업에 대해 축소된 컨텍스트를 전달할 수 있는 최소하지만 강력한 프레임워크를 소개합니다.
이론적 보장: 모든 계산 가능한 문제를 재귀적으로 분해할 수 있음을 증명하며, 각 하위 작업은 표준 자동회귀 패스보다 지수적으로 더 작은 활성 컨텍스트만 필요합니다.
에이전시 시스템 내 최적성: 보다 일반적인 “에이전시” 아키텍처(임의의 컨텍스트 처리 및 제어 흐름)로 이론을 확장하고, 재귀 모델이 해당 클래스에서 가능한 최대 추론 능력을 달성함을 보여줍니다.
실증적 검증: 30억 파라미터 모델을 재귀적으로 동작하도록 학습시켜, 부울 만족도 검사(SAT)—고전적인 장기 지평 조합 탐색 문제—에서 최신 LLM들을 능가하는 큰 성능 향상을 입증했습니다.
요약 기반 컨텍스트 관리와의 비교: 재귀가 단일 시퀀스 접근법(예: 이전 텍스트 요약)보다 엄격히 우수함을 보여줍니다. 이는 전체 문제를 해결하면서도 활성 윈도우를 매우 작게 유지할 수 있기 때문입니다.

방법론

재귀적 분해
- 원래 작업을 하위 작업들의 트리 구조로 나눕니다.
- 트리의 각 노드는 동일한 기본 언어 모델에 의해 해결되지만, 해당 하위 문제에 필요한 지역 컨텍스트만 사용합니다(예: SAT 공식의 절).
모델 호출 프로토콜
- 부모 호출은 하위 작업을 설명하는 프롬프트와 관련 변수들의 짧은 “스크래치패드”를 패키징합니다.
- 자식 모델은 간결한 답변을 반환합니다(예: “satisfiable” 또는 부분 할당).
- 부모는 자식 답변을 집계하고, 필요에 따라 추가 재귀 호출을 생성합니다.
학습 체계
- 3B 파라미터 트랜스포머를 합성 재귀 작업(중첩 산술, 트리 구조 추론)으로 미세 조정하여 “스스로 호출” 패턴을 학습시킵니다.
- 커리큘럼 학습을 통해 재귀 깊이를 점진적으로 증가시켜, 각 호출의 컨텍스트를 최소화하도록 모델을 유도합니다.
SAT 평가
- 최대 100개의 변수를 갖는 3‑SAT 인스턴스를 생성합니다.
- 재귀 모델은 전체 CNF 공식을 받아 하위 절들을 재귀적으로 해결하고 전역 할당을 조합합니다.
- 비교 대상으로는 GPT‑4, Claude, 그리고 단일 큰 컨텍스트(재귀 없음)를 사용하는 강력한 미세 조정 7B 모델이 포함됩니다.

결과 및 발견

System	평균 SAT 성공률 (100‑var)	호출당 평균 토큰 수
Recursive 3B (this work)	78 %	~30 (subtask당)
GPT‑4 (single‑pass)	45 %	8 k (전체 컨텍스트)
Claude 2 (single‑pass)	42 %	—
Fine‑tuned 7B (no recursion)	48 %	—

컨텍스트 감소: 가장 깊은 재귀 호출은 약 30 토큰만 필요했으며, 전체 공식을 보관하는 데 필요한 약 8 k 토큰에 비해 지수적으로 감소했습니다.
확장성: 문제 규모가 커질수록 격차가 확대됩니다—재귀 3B는 200‑var SAT에서 70 % 이상의 성공률을 유지하는 반면, 단일 패스 모델은 30 % 이하로 떨어집니다.
일반화: 동일한 재귀 정책이 다른 조합 최적화 작업(그래프 색칠, 부분합)에도 약간의 파인튜닝만으로 전이되어, 재사용 가능한 추론 원시 연산을 암시합니다.

실용적 함의

Agentic AI 파이프라인: 자율 에이전트(예: 코드‑어시스턴트, 플래닝 봇)를 구축하는 개발자는 재귀 호출 인터페이스를 삽입하여 각 추론 단계를 가볍게 유지하고, 비용이 많이 드는 컨텍스트 윈도우를 피할 수 있습니다.
엣지 배포: 작은 모델(3‑B 규모)도 이제 문제를 재귀적으로 “분해”할 수 있기 때문에 이전에 대규모 모델이 필요했던 문제들을 해결할 수 있습니다. 이는 제한된 환경에서 디바이스 내 추론의 가능성을 열어줍니다.
툴‑사용 통합: 재귀 호출은 기존 툴 사용 API(예: SAT 솔버를 서브‑태스크로 호출)와 자연스럽게 매핑됩니다. 논문의 프레임워크는 툴에 작업을 넘길 시점을 내부에서 해결할지 결정하는 원칙적인 방법을 제공합니다.
디버깅 가능성: 각 서브‑태스크가 격리되어 있기 때문에 개발자는 중간 프롬프트와 출력을 검사할 수 있어, 긴 체인 추론에서 발생한 오류를 추적하기가 용이합니다.

Limitations & Future Work

재귀 오버헤드: 현재 구현은 많은 순차적 모델 호출로 인해 지연이 발생합니다; 배치 전략이나 병렬 트리 탐색이 프로덕션 수준의 속도를 위해 필요합니다.
분해 학습: 논문은 수작업으로 만든 혹은 외부에서 제공된 작업 분할을 전제로 합니다. 최적의 재귀적 분해를 자동으로 발견하는 것은 아직 해결되지 않은 과제입니다.
전역 상태 메모리: 호출당 컨텍스트는 작지만, 다수의 호출에 걸쳐 일관된 전역 상태를 유지하는 것은 취약할 수 있습니다; 보다 풍부한 상태 전달 메커니즘이 유망한 방향입니다.
보다 풍부한 도메인으로의 확장: 실험은 부울 SAT와 합성 조합 작업에 초점을 맞추었습니다. 자연어 계획, 코드 생성, 혹은 다중 모달 추론으로 재귀를 확장하는 것은 프레임워크의 일반성을 시험할 것입니다.

Bottom line: 언어 모델이 문제의 작은 조각에 대해 스스로를 호출하도록 함으로써, 저자들은 오랫동안 LLM 추론을 제한해 온 컨텍스트 크기 한계를 깨는 깔끔하고 이론적으로 뒷받침되는 경로를 보여줍니다. 차세대 AI 에이전트를 구축하는 개발자에게 재귀는 모델 크기나 컨텍스트 창을 확대하지 않고도 깊고 다단계 추론을 달성할 수 있는 실용적인 레시피를 제공합니다.

저자

Chenxiao Yang
Nathan Srebro
Zhiyuan Li

논문 정보

arXiv ID: 2603.02112v1
분류: cs.LG, cs.CL
출판일: 2026년 3월 2일
PDF: Download PDF

[Paper] 장기 추론을 위한 재귀 모델

개요

핵심 기여

방법론

결과 및 발견

실용적 함의

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] 테스트 시 강화 학습을 위한 툴 검증

[Paper] 스케일링 Retrieval Augmented Generation with RAG Fusion: 산업 배포 사례에서 얻은 교훈

[Paper] Zero- 및 Few-Shot Named-Entity Recognition: 범죄 분야 사례 연구 및 데이터셋 (CrimeNER)

[Paper] TopoCurate: 툴 사용 에이전트 훈련을 위한 상호작용 토폴로지 모델링