[Paper] ReGuLaR: Rendered Chain-of-Thought에 의해 안내되는 Variational Latent Reasoning
Source: arXiv - 2601.23184v1
개요
논문 ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain‑of‑Thought는 현대 대형 언어 모델(LLM)의 실용적인 병목 현상을 해결합니다: 체인‑오브‑생각(CoT) 프롬프트는 추론 정확도를 크게 향상시키지만, 동시에 모델이 길고 토큰‑별 설명을 생성하도록 강요해 연산을 낭비합니다. ReGuLaR는 추론 과정을 저차원 잠재 공간으로 압축하는 컴팩트한 “잠재 추론” 접근 방식을 제안합니다—하지만 이전 시도와 달리, CoT의 시각적 렌더링을 가이드 신호로 사용하여 압축이 충실하도록 유지합니다.
주요 기여
- 변분 잠재 추론 프레임워크 – 추론을 VAE‑스타일 잠재 변수 모델로 구성하여, 이전 단계에 조건화된 사후분포에서 각 추론 단계를 샘플링합니다.
- 렌더링된 CoT 가이드 – 명시적인 텍스트 추론 체인을 이미지로 변환하고, 밀집된 시각‑언어 임베딩을 추출하여 이를 잠재 사후분포를 정규화하는 데 사용함으로써 정보 손실을 크게 감소시킵니다.
- 멀티모달 추론 향상 – 시각 임베딩을 활용함으로써 ReGuLaR는 CoT 성능에 일치할 뿐만 아니라 여러 벤치마크에서 이를 능가할 수 있습니다.
- 효율성 향상 – 답변 품질을 유지하거나 개선하면서 토큰 생성량을 최대 약 3배까지 감소시킵니다.
- 오픈소스 구현 – 재현성과 커뮤니티 실험을 위해 코드와 사전 학습된 체크포인트를 공개했습니다.
Methodology
- Chain‑of‑Thought rendering – 학습 중에 각 텍스트 기반 CoT(예: “Step 1: … Step 2: …”)를 이미지로 렌더링합니다(프롬프트의 간단한 스크린샷을 생각하면 됩니다).
- Visual‑semantic encoder – 사전 학습된 비전‑언어 모델(예: CLIP)이 렌더링된 이미지를 밀집 벡터로 인코딩하여 전체 논리 흐름을 포착합니다.
- Variational Auto‑Encoder for reasoning
- Encoder (posterior): 현재 LLM 은닉 상태와 visual‑semantic 벡터를 받아 (q(z_t|z_{<t}, \text{CoT_img})) 분포를 생성합니다.
- Decoder (generator): 잠재 변수 (z_t)를 샘플링하고 이를 LLM에 입력해 다음 답변 토큰(또는 중간 추론 토큰)을 생성합니다.
- Regularization loss – KL‑divergence 항이 posterior를 visual‑semantic 임베딩 쪽으로 끌어당겨, 잠재 공간이 원본 CoT의 구조를 보존하도록 합니다.
- Training loop – 모델은 표준 언어 모델링 손실과 KL 정규화 항을 동시에 최적화하여 CoT를 몇 개의 잠재 단계로 “압축”하는 방법을 학습합니다.
추론 시에는 visual rendering 단계가 생략되고, 모델이 직접 잠재 상태를 샘플링하므로 생성 토큰 수가 크게 감소합니다.
결과 및 발견
| 벤치마크 | CoT (baseline) | 잠재 추론 (prior) | ReGuLaR |
|---|---|---|---|
| GSM‑8K (math) | 78.4 % | 62.1 % | 80.9 % |
| CommonsenseQA | 71.2 % | 58.3 % | 73.5 % |
| MultiArith | 85.0 % | 70.4 % | 86.2 % |
- 정확도: ReGuLaR는 이전 잠재 추론 방법들을 지속적으로 능가하며 대부분의 작업에서 원래 CoT보다도 약간 높은 성능을 보입니다.
- 속도: 예시당 평균 토큰 생성량이 전체 CoT ≈ 150 토큰에서 잠재 토큰 ≈ 45 토큰으로 감소하여 단일 GPU에서 약 3배 빠른 추론이 가능합니다.
- 소거 실험: 시각‑언어 정규화기를 제거하면 정확도가 약 7–9 % 감소하여, 해당 요소가 핵심 역할을 함을 확인할 수 있습니다.
Practical Implications
- Cost‑effective LLM services – Deployers can offer reasoning‑capable APIs with lower GPU time and memory footprints, translating to cheaper cloud bills.
- Edge and mobile scenarios – The compact latent representation makes it feasible to run reasoning‑enhanced models on devices with limited compute (e.g., on‑device assistants).
- Multi‑modal pipelines – Because the guidance comes from images, ReGuLaR naturally fits into workflows that already mix text and vision (e.g., OCR‑augmented QA, document understanding).
- Debuggable reasoning – The visual rendering step can be kept during development to inspect how the model compresses a chain, aiding model interpretability and prompt engineering.
제한 사항 및 향후 작업
- 시각 인코더에 대한 의존성 – 잠재 압축의 품질은 비전‑언어 모델에 달려 있으며, 최적이 아닌 인코더는 성능을 병목 현상으로 만들 수 있습니다.
- 학습 오버헤드 – CoT(Chain of Thought)를 렌더링하고 처리하는 데 전처리 시간이 추가되지만, 이는 일회성 비용입니다.
- 비영어 또는 고도 도메인 특화 CoT에 대한 일반화 – 현재 실험은 영어 벤치마크에 초점을 맞추고 있으며, 다른 언어 또는 특수 도메인으로 확장하려면 맞춤형 시각 인코더가 필요할 수 있습니다.
향후 방향으로는 텍스트 전용 의미 정규화기(예: 문장 임베딩)를 탐색하여 이미지 단계를 제거하고, 접근 방식을 더 큰 LLM에 확장하며, 강화 학습을 통합해 특정 다운스트림 애플리케이션에 맞게 잠재 추론을 미세 조정하는 것이 포함됩니다.
저자
- Fanmeng Wang
- Haotian Liu
- Guojiang Zhao
- Hongteng Xu
- Zhifeng Gao
논문 정보
- arXiv ID: 2601.23184v1
- 카테고리: cs.CL
- 출판일: 2026년 1월 30일
- PDF: PDF 다운로드