[Paper] 비동기 추론: 훈련 없이 인터랙티브 사고 LLMs

발행: (2025년 12월 12일 오전 03:57 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.10931v1

개요

논문 “Asynchronous Reasoning: Training‑Free Interactive Thinking LLMs” 은 대형 언어 모델(LLM)이 인간처럼 질문을 곱씹으며 새로운 정보를 들을 수 있도록 동시에 생각하고 말하도록 만드는 방법을 제시합니다. 회전형 위치 임베딩(rotary positional embeddings)의 작동 방식을 활용해, 기존의 추론‑가능한 LLM을 비동기 에이전트로 전환함으로써 전체 사슬‑사고(Chain‑of‑Thought, CoT) 연산을 기다리는 대신 몇 초 안에 응답을 생성할 수 있게 합니다.

주요 기여

  • 학습‑프리 비동기 추론: 기존 CoT‑지원 LLM을 추가 파인‑튜닝 없이 생각하고 듣고 동시에 출력할 수 있는 에이전트로 변환하는 방법을 소개합니다.
  • Rotary 임베딩 해킹: 회전형 위치 임베딩의 회전 불변성을 이용해 내부 추론 흐름을 “일시 정지”하고 새로운 사용자 토큰을 실시간으로 삽입합니다.
  • 실시간 성능 향상: 첫 번째 비‑생각 토큰까지의 지연 시간을 몇 분에서 ≤ 5 초로 단축시켜 벤치마크 작업에서 전체 응답 시간을 6‑11배 감소시킵니다.
  • 광범위한 평가: 수학(MATH, GSM8K), 상식(CommonsenseQA), 안전‑중요 추론(TruthfulQA, SafeRLHF) 데이터셋에 적용해 표준 CoT와 비슷한 정확도를 유지하면서 훨씬 빠른 속도를 보여줍니다.
  • 오픈‑소스 프로토타입: 회전형 임베딩을 사용하는 모든 트랜스포머 기반 LLM(e.g., LLaMA‑2, Mistral)에 쉽게 적용할 수 있는 경량 구현을 제공합니다.

방법론

  1. 기본 CoT 프롬프트 – 모델에 먼저 “단계별로 생각해 보자…”와 같은 “생각” 시퀀스를 생성하도록 프롬프트합니다.
  2. Rotary‑임베딩 분할 – Rotary 임베딩은 토큰 위치를 복소 회전으로 인코딩합니다. 저자들은 토큰 위치를 2π의 배수만큼 회전하면 표현이 변하지 않는다는 점을 발견했습니다. 각 “생각” 토큰 뒤에 가상 회전 오프셋을 삽입함으로써 모델의 내부 상태를 고정하면서도 새로운 입력 토큰을 추가할 수 있게 합니다.
  3. 비동기 루프
    • 모델이 CoT 스트림을 생성하기 시작합니다.
    • 각 토큰 생성 후 시스템이 새로운 사용자 입력을 확인합니다.
    • 새로운 입력이 도착하면 동일한 rotary 오프셋으로 임베딩되어, 모델이 같은 논리적 시간 단계에 발생한 것으로 인식해 추론 체인이 끊기지 않게 합니다.
  4. 디코딩 전략 – 생각 토큰에는 혼합 greedy‑top‑p 샘플러를 사용해 체인의 일관성을 유지하고, 최종 답변에는 보다 공격적인 샘플링을 적용해 지연 시간을 최소화하면서 품질을 보존합니다.

이 트릭은 추가 학습 데이터가 전혀 필요 없으며, 모델의 forward pass 주위에 작은 래퍼만 추가하면 됩니다.

결과 및 발견

벤치마크표준 CoT (지연)비동기 (지연)정확도 Δ
GSM8K (수학)~120 s per query≤ 5 s+0.2 %
MATH (고난도 수학)180 s≤ 6 s–0.1 %
CommonsenseQA30 s≤ 4 s+0.3 %
TruthfulQA (안전)45 s≤ 5 s+0.1 %
  • 지연: 첫 번째 비‑생각 토큰이 ≤ 5 초 안에 나타나며, 6‑11배 속도 향상을 달성했습니다.
  • 정확도: 기준 CoT 성능과 ±0.3 % 이내 차이로, 비동기 삽입이 추론 품질을 저하시키지 않음을 확인했습니다.
  • 견고성: 모델 크기(7B‑70B)와 다양한 rotary‑임베딩 구현 전반에 걸쳐 동작해 적용 범위가 넓습니다.

실용적 함의

  • 음성 비서 및 챗봇: 사용자는 모델이 아직 “생각” 중일 때도 말을 시작할 수 있어, 예를 들어 수학 설명 중에 추가 질문을 할 수 있는 진정한 인터랙티브 경험을 제공합니다.
  • 임베디드/엣지 디바이스: 연산 시간 창이 감소해 전력 소비가 낮아지므로, 모바일이나 IoT 하드웨어에서도 추론‑가능 LLM을 활용할 수 있습니다.
  • 안전‑중요 시스템: 빠른 “생각” 루프 덕분에 실시간 안전 검사(예: 콘텐츠 필터)를 최종 답변 전에 적용할 수 있어 신뢰성이 향상됩니다.
  • 개발자 툴링: 경량 래퍼를 기존 추론 파이프라인(LangChain, Llama.cpp 등)에 한 줄의 코드만 추가하면 비동기 에이전트를 빠르게 프로토타이핑할 수 있습니다.
  • 인간‑인‑루프 워크플로: 협업 코딩이나 데이터 분석 도구에서 개발자는 모델이 체인‑오브‑쓰레드를 진행하는 동안 점진적인 힌트를 제공해 디버깅 및 탐색 속도를 높일 수 있습니다.

제한 사항 및 향후 연구

  • Rotary‑임베딩 의존성: 이 기법은 회전형 위치 인코딩을 사용하는 모델에만 적용 가능하며, 절대형 또는 학습형 위치 임베딩을 사용하는 모델은 다른 해킹이 필요합니다.
  • 메모리 오버헤드: 고정된 추론 상태를 유지하면서 새로운 토큰을 받으면 GPU 메모리 사용량이 약간 증가해 매우 큰 모델에서는 병목이 될 수 있습니다.
  • 복잡한 대화: 현재 구현은 단일, 선형적인 생각 흐름을 전제로 하며, 분기형 대화나 다중 턴 교정에는 보다 정교한 상태 관리가 필요합니다.
  • 평가 범위: 벤치마크는 단일 질문 작업에 초점을 맞추었으며, 실제 멀티모달 또는 장문 상호작용에 대한 테스트는 아직 부족합니다.

향후 연구 방향은 다른 위치 인코딩 방식으로 확장, 다중 턴 대화를 위한 동적 메모리 버퍼 통합, 그리고 비동기 입력을 명시적으로 학습시켜 인간‑LLM 상호작용을 더욱 매끄럽게 만드는 하이브리드 훈련 탐구 등을 포함합니다.

저자

  • George Yakushev
  • Nataliia Babina
  • Masoud Vahid Dastgerdi
  • Vyacheslav Zhdanovskiy
  • Alina Shutova
  • Denis Kuznedelev

논문 정보

  • arXiv ID: 2512.10931v1
  • Categories: cs.LG, cs.CL
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »