[Paper] LLM 및 VLM을 위한 재귀적 사고‑답변 프로세스

발행: 1일 전 (2026년 3월 3일 오전 02:20 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2603.02099v1

개요

이 논문은 Recursive Think‑Answer Process (R‑TAP) 를 소개합니다. 이는 대형 언어 모델(LLM)과 비전‑언어 모델(VLM)이 최종 답변을 제시하기 전에 반복적으로 “생각”하도록 하는 경량 프레임워크입니다. 신뢰도 기반 피드백 루프를 추가함으로써, R‑TAP은 흔히 명백한 실수(예: “앗!” 순간)로 이어지는 전통적인 “단일 패스”의 취약성을 감소시키고, 보다 신뢰할 수 있고 빠른 추론을 제공합니다.

주요 기여

재귀적 추론 루프: 기존의 think‑answer 파이프라인을 여러 번의, 신뢰도 기반 반복으로 확장합니다.
신뢰도 생성기: 모델이 현재 답변에 대해 얼마나 확신하는지를 예측하는 경량 모듈로, 추가 추론 사이클이 필요한지를 결정합니다.
두 가지 새로운 보상 신호:
1. 재귀적 신뢰도 증가 보상 – 각 반복이 모델의 신뢰도를 높이도록 장려합니다.
2. 최종 답변 신뢰도 보상 – 최종 출력에 대한 높은 신뢰도에 보상을 제공합니다.
LLM과 VLM에 대한 통합적 접근: 동일한 재귀적 스킴이 텍스트 전용 모델과 멀티모달 모델 모두를 향상시킴을 보여줍니다.
실증적 향상: 여러 벤치마크 작업에서 일관된 성능 향상을 달성했으며, “Oops” 자체 수정이 감소하고 추론 지연 시간이 줄어듭니다.

방법론

Think‑Answer baseline – 모델은 먼저 사고 사슬(Chain‑of‑Thought, CoT)을 생성한 뒤, 한 번의 순방향 패스로 답을 만든다.
신뢰도 추정기 추가 – 답이 생성된 후, 작은 분류기(답‑신뢰도 쌍으로 학습됨)가 신뢰도 점수 (c \in [0,1])를 예측한다.
재귀 루프 –
- (c)가 사전에 정해진 임계값 이하이면, 모델에 재생각을 요구한다: 이전 추론 과정을 그대로 제공하고 “좀 더 개선해 주세요”라는 힌트를 추가해 또 다른 CoT‑답변 패스를 실행한다.
- 신뢰도가 임계값을 초과하거나 최대 반복 횟수에 도달할 때까지 이 과정을 반복한다.
이중 보상으로 학습 – 파인‑튜닝 중 손실은 다음을 결합한다:
- R‑CIR (연속된 반복 사이의 신뢰도 감소를 벌점)와
- FACR (최종 답변에 대한 높은 신뢰도를 직접 보상)
  이 보상들은 메인 모델과 신뢰도 생성기 모두에 역전파되어, 더 나은 추론과 더 정확한 자기 평가를 동시에 촉진한다.

결과 및 발견

Model	Task	Single‑Pass Accuracy	R‑TAP Accuracy	Avg. # Iterations	Avg. Inference Time
LLaMA‑13B	GSM‑8K (수학)	71.2 %	78.5 %	1.7	+12 %
GPT‑4‑V	VQA‑X (시각‑언어)	64.8 %	71.3 %	1.5	+9 %
CLIP‑ViT‑B	이미지 캡션 (BLEU)	23.4	27.1	1.6	+11 %

신뢰도 상승: 모든 실험에서 재귀마다 신뢰도 점수가 단조롭게 상승했으며, 이는 R‑CIR 보상의 효과를 확인시켜준다.
“Oops” 표현 감소: 자기 반성 문구(예: “Oops, I made a mistake”)의 빈도가 기준선에 비해 약 45 % 감소하여, 추론이 보다 안정적임을 나타낸다.
속도‑정확도 트레이드‑오프: 대부분의 입력이 1–2 회 반복 후 수렴하기 때문에 전체 지연 시간 증가가 제한적이며, 그럼에도 불구하고 상당한 정확도 향상을 제공한다.

Practical Implications

More trustworthy AI assistants – 개발자는 R‑TAP을 챗봇이나 코드‑assist 도구에 삽입하여 모델이 응답하기 전에 스스로 답변을 검증하도록 할 수 있어 환상을 줄일 수 있습니다.
Cost‑effective scaling – 신뢰도 생성기는 매우 작으며(≈0.2 % of model parameters) 동일한 하드웨어에서 실행될 수 있어 비용이 많이 드는 앙상블이나 샘플링 기법을 피할 수 있습니다.
Multimodal pipelines – 비전‑언어 애플리케이션(예: 문서 이해, 시각 QA)은 동일한 루프의 혜택을 받아, 모든 CoT‑capable 모델에 대한 범용 애드‑온이 됩니다.
Dynamic inference budgets – 신뢰도 임계값을 조정함으로써 서비스는 높은 처리량 작업에서 약간의 정확도 손실을 감수하고 지연 시간을 낮출 수 있습니다.
Debugging & interpretability – 중간 추론 추적과 신뢰도 점수는 엔지니어에게 모델이 불확실한 부분을 명확히 보여주어 오류 분석 및 안전 감사에 도움이 됩니다.

제한 사항 및 향후 작업

임계값 민감도 – 신뢰도 컷오프를 선택하려면 작업별 튜닝이 필요합니다; 최적이 아닌 임계값은 사이클을 낭비하거나 너무 일찍 중단할 수 있습니다.
재귀 깊이 상한 – 현재 구현은 재귀를 세 번 반복으로 제한합니다; 매우 복잡한 추론에는 더 깊은 루프가 필요할 수 있지만 지연 시간이 크게 증가할 수 있습니다.
학습 데이터 편향 – 신뢰도 생성기는 기본 작업에 사용된 동일한 데이터로 학습되므로, 분포 외 오류를 감지하는 능력이 제한될 수 있습니다.
향후 방향 저자들이 제안하는 내용:
1. 강화 학습을 통해 학습되는 적응형 임계값.
2. 프로그래밍 작업을 위한 체인‑오브‑생각 프롬프트로 R‑TAP 확장.
3. 외부 힌트를 점차 줄이며 모델이 스스로 교정하는 커리큘럼식 학습 탐색.

저자

Byung-Kwan Lee
Youngchae Chee
Yong Man Ro

논문 정보

arXiv ID: 2603.02099v1
카테고리: cs.CL
출판일: 2026년 3월 2일
PDF: PDF 다운로드

[Paper] LLM 및 VLM을 위한 재귀적 사고‑답변 프로세스

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Reasoning Core: 스케일러블 절차적 데이터 생성 스위트 for Symbolic Pre‑training and Post‑Training

[Paper] 테스트 시 강화 학습을 위한 툴 검증

[Paper] 에이전트 스킬의 조직화, 오케스트레이션 및 에코시스템 규모 벤치마킹

[Paper] 스케일링 Retrieval Augmented Generation with RAG Fusion: 산업 배포 사례에서 얻은 교훈