[논문] CopT: 일반 및 에이전트적 추론을 위한 연속 공간 기반 대조적 온‑폴리시 사고

발행: 3주 전 (2026년 5월 20일 AM 01:28 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2605.20075v1

개요

논문 **“CopT: Contrastive On‑Policy Thinking with Continuous Spaces for General and Agentic Reasoning”**는 기존의 “생각‑후‑답변”(CoT) 패러다임을 뒤집는다. 언어 모델이 답을 만들기 전에 먼저 추론하도록 강요하는 대신, CopT는 초안 답변을 먼저 생성하고 모델이 그 초안을 반성하도록 하여 필요할 때만 수정하거나 확인한다. 이 간단한 순서 변경만으로 수학, 코딩, 자율 에이전트 작업 전반에 걸쳐 정확도와 토큰 효율성이 크게 향상되며, 추가적인 모델 학습은 필요하지 않다.

주요 기여

초안‑우선 추론 파이프라인 – 명시적인 추론을 수행하기 전에 임시 답변을 생성하여, 답변이 이미 신뢰할 만한 경우 조기에 종료할 수 있다.
대조적 신뢰도 추정기 – 연속 임베딩 입력을 사용해 역 KL 점수를 계산하고, 모델이 자신의 초안 답변을 얼마나 “신뢰”하는지 측정한다.
동적 가시성을 갖는 온‑폴리시 사고 – 신뢰도 점수가 낮으면 모델이 초안을 부분적으로 가려서 재추론하도록 하여 유용한 정보를 보존하고 오해를 방지한다.
학습‑무료 개선 – 모든 향상은 추론 시 트릭만으로 이루어지며, 동일한 사전학습 LLM을 그대로 사용할 수 있다.
폭넓은 실증 검증 – 수학, 프로그래밍, 에이전트 추론 벤치마크에서 최대 23 % 높은 최고 정확도와 57 % 토큰 절감을 달성한다.

방법론

초안 생성 – LLM에 원본 문제 프롬프트를 제공하고 빠른 답변(예: 수치 결과, 코드 조각, 행동 계획)을 만들도록 요청한다. 아직 체인‑오브‑생각 단계는 요구하지 않는다.
대조적 검증
- 이산적 관점: 원본 프롬프트와 초안 답변을 토큰 단위로 입력하고 각 토큰에 대한 모델의 확률 분포를 기록한다.
- 연속적 관점: 동일한 프롬프트‑초안 쌍을 모델 내부 은닉 상태를 이용한 연속 임베딩으로 인코딩하고, 이 임베딩으로부터 다음 토큰을 예측하도록 모델에 요청한다.
- 두 토큰 분포 사이의 역 KL 발산을 계산한다. KL 값이 낮으면 초안이 내부 지식과 일치한다는 높은 신뢰도를 의미하고, KL 값이 높으면 불확실성을 나타낸다.
신뢰도 판단 – KL 점수를 잠재 답변 상태와 생성된 토큰 사이의 상호 정보량 추정치로 해석한다. 추정치가 사전에 설정한 임계값을 초과하면 초안을 그대로 받아들인다.
온‑폴리시 사고 (필요 시)
- 모델이 추론 모드로 다시 진입하지만, 이번에는 KL 기반 가시성 마스크에 따라 초안이 부분적으로 마스킹된 상태를 본다.
- 이 “온‑폴리시” 사고를 통해 모델이 자신의 답변을 반성하고, 교정 CoT 단계를 생성하며, 필요하면 수정된 답변을 만든다.
반복적 정제 – 매 반복마다 신뢰도를 재평가하고, 답변이 신뢰도 검사를 통과하거나 최대 반복 횟수에 도달할 때까지 과정을 반복한다.

이 모든 과정은 추론 단계에서만 이루어지며, 파인튜닝이나 추가 데이터는 필요하지 않다.

결과 및 발견

작업 분야	기준선 (기존 CoT)	CopT (초안‑우선)	정확도 Δ	토큰 감소
수학 (MATH)	68 %	84 %	+23 %	–45 %
코드 생성 (HumanEval)	55 %	71 %	+16 %	–38 %
에이전트 추론 (WebArena)	61 %	78 %	+17 %	–57 %

모든 벤치마크에서 최고 정확도 상승을 기록했으며, 특히 정답을 초기에 추측할 수 있는 문제에서 큰 효과를 보였다.
큰 토큰 절감이 이루어졌는데, 많은 쉬운 사례가 초안 단계에서 바로 종료되어 긴 CoT 체인을 피할 수 있었다.
대조적 KL 추정기는 인간이 느끼는 답변 자신감과 강하게 상관관계가 있어, 신뢰도 프록시로서 유용함을 입증했다.

실용적 함의

비용 효율적인 LLM 배포 – 토큰 사용량이 감소하면서 정확도는 향상돼 클라우드 컴퓨팅 비용을 직접 절감한다.
실시간 어시스턴트 – 음성 비서, IDE 코드 도우미, 챗봇 등은 초안이 신뢰할 만하면 즉시 응답하고, 필요할 때만 깊은 추론을 수행해 지연 시간을 줄인다.
안전성 및 정렬 – 신뢰도 검사는 모델이 자신 있게 환각 답변을 내보내는 것을 방지하는 가드레일 역할을 하며, 의료·금융 등 고위험 분야에서는 더 엄격한 임계값을 설정할 수 있다.
플러그‑인 통합 – CopT는 기존 오프‑더‑쉘프 LLM(GPT‑3.5, LLaMA, Claude 등)과 호환되므로, 기존 제품에 최소한의 엔지니어링 작업만으로 파이프라인을 적용할 수 있다.
에이전트 시스템 – 자율 에이전트가 먼저 계획을 제시하고 그 타당성을 검증한 뒤에만 상세 추론에 컴퓨팅을 할당함으로써 장시간 시뮬레이션을 보다 효율적으로 수행할 수 있다.

한계 및 향후 연구

임계값 민감도 – KL 신뢰도 임계값은 도메인별로 경험적으로 튜닝해야 하며, 과도하게 공격적인 임계값은 올바른 초안을 거부하고, 완화된 임계값은 오류를 통과시킬 수 있다.
잠재 상호 정보 가정 – 이론적 근거는 특정 독립성 가정에 의존하는데, 모든 모델 구조나 프롬프트에 적용되지 않을 수 있다.
매우 긴 컨텍스트에 대한 확장성 – 매우 긴 입력에 대해 연속 임베딩을 계산하면 메모리 사용량이 급증하므로, 차후 연구에서는 저‑랭크 근사 방법을 탐색할 필요가 있다.
멀티모달 모델로의 확장 – 현재는 텍스트 전용이며, 비전‑언어 혹은 오디오‑언어 모델에 대조적 검증을 적용하는 방법은 아직 미개척 영역이다.

저자들은 오픈소스 구현(GitHub)을 제공하여, 개발자들이 자신의 애플리케이션에 초안‑우선, 대조 검증 워크플로를 손쉽게 실험해볼 수 있도록 했다.

저자

Dachuan Shi
Hanlin Zhu
Xiangchi Yuan
Wanjia Zhao
Kejing Xia
Wen Xiao
Wenke Lee

논문 정보

arXiv ID: 2605.20075v1
분류: cs.CL, cs.AI
발표일: 2026년 5월 19일
PDF: Download PDF

[논문] CopT: 일반 및 에이전트적 추론을 위한 연속 공간 기반 대조적 온‑폴리시 사고

개요

주요 기여

방법론

결과 및 발견

실용적 함의

한계 및 향후 연구

저자

논문 정보

관련 글

[Paper] SkillOpt: 자기 진화형 에이전트 스킬을 위한 실행 전략

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 강력한 Teacher는 필요 없을까? LLM 사전학습에서의 Distillation

[Paper] 언어 모델에서 Hierarchical Concept Geometry는 Word Co-occurrence에서 나타난다