RecursiveMAS, 멀티에이전트 추론을 2.4배 가속화하고 토큰 사용량을 75% 줄인다
Source: VentureBeat
현재 멀티에이전트 AI 시스템의 주요 과제 중 하나는 에이전트들이 텍스트 시퀀스를 생성하고 공유하면서 소통한다는 점이다. 이 방식은 지연 시간을 초래하고 토큰 비용을 증가시키며, 시스템 전체를 하나의 통합된 유닛으로 학습하기 어렵게 만든다.
이 문제를 해결하기 위해 일리노이 대학교 어배너-샴페인 캠퍼스와 스탠포드 대학교 연구진은 에이전트들이 텍스트 대신 임베딩 공간을 통해 협업하고 정보를 전달하도록 하는 프레임워크인 RecursiveMAS를 개발했다. 이 변화는 효율성과 성능 모두에서 이점을 제공한다.
실험 결과, RecursiveMAS는 코드 생성, 의료 추론, 검색 등 복잡한 도메인에서 정확도 향상을 달성하면서 추론 속도를 높이고 토큰 사용량을 크게 줄였다.
RecursiveMAS는 기존의 전체 파인튜닝이나 LoRA 방식보다 학습 비용이 현저히 낮아, 맞춤형 멀티에이전트 시스템을 확장 가능하고 비용 효율적인 청사진으로 만든다.
멀티에이전트 시스템 개선의 과제
멀티에이전트 시스템은 단일 에이전트가 다루기 어려운 복잡한 작업을 해결하는 데 도움을 줄 수 있다. 실제 환경에 적용하기 위해 시스템을 확장할 때 가장 큰 과제는 시스템이 시간이 지남에 따라 진화하고, 개선되며, 다양한 시나리오에 적응하도록 만드는 것이다.
프롬프트 기반 적응은 에이전트들에게 제공되는 공유 컨텍스트를 반복적으로 다듬음으로써 상호작용을 개선한다. 프롬프트를 업데이트함으로써 시스템은 감독자 역할을 수행해 에이전트들이 전체 목표에 더 부합하는 응답을 생성하도록 유도한다. 그러나 근본적인 제한은 각 에이전트가 기반으로 하는 모델의 능력이 정적인 채로 남아 있다는 점이다.
보다 정교한 접근법은 모델의 가중치를 업데이트하여 에이전트를 학습시키는 것이다. 여러 모델에 걸쳐 모든 파라미터를 동시에 업데이트하는 것은 계산적으로 매우 까다롭기 때문에 전체 에이전트 시스템을 학습시키는 것은 어려운 일이다.
설령 엔지니어링 팀이 모델 학습에 전념한다 하더라도, 에이전트가 텍스트 기반 상호작용을 통해 소통하도록 하는 기존 방식은 큰 병목 현상을 만든다. 에이전트들은 순차적인 텍스트 생성을 의존하기 때문에, 앞선 모델이 텍스트 생성을 마칠 때까지 다음 모델이 처리를 시작할 수 없어 지연이 발생한다.
다음 모델이 읽을 수 있도록 중간 추론 과정을 토큰 단위로 철저히 기술하도록 강요하는 것은 매우 비효율적이다. 이는 토큰 사용량을 급격히 늘리고 연산 비용을 상승시키며, 전체 시스템에 걸친 반복 학습을 확장하기 어렵게 만든다.
RecursiveMAS 작동 방식
각 에이전트를 독립적인 구성 요소로 개선하려는 시도 대신, RecursiveMAS는 전체 멀티에이전트 시스템을 하나의 통합된 전체로 공동 진화하고 확장하도록 설계되었다.
이 프레임워크는 재귀 언어 모델(RLM) 에서 영감을 얻었다. 일반적인 언어 모델에서는 데이터가 서로 다른 층을 순차적으로 통과한다. 반면 재귀 언어 모델은 동일한 공유 층을 재사용해 데이터를 처리하고 다시 자신에게 피드백한다. 계산을 루프시키면서 파라미터를 추가하지 않아도 모델의 추론 깊이를 늘릴 수 있다.
RecursiveMAS는 이러한 확장 원리를 단일 모델이 아닌 멀티에이전트 아키텍처에 적용한다. 이 설정에서 각 에이전트는 재귀 언어 모델의 한 층처럼 동작한다. 텍스트를 생성하는 대신, 에이전트들은 연속적인 잠재 표현(latent representation)을 다음 에이전트에게 순차적으로 전달해 시스템 전체에 루프된 숨은 정보 흐름을 만든다.
이 잠재적 전달은 모든 에이전트를 거쳐 진행된다. 마지막 에이전트가 처리를 마치면, 그 잠재 출력이 바로 처음 에이전트에게 다시 전달되어 새로운 재귀 라운드가 시작된다.
이 구조 덕분에 전체 멀티에이전트 시스템은 여러 라운드에 걸쳐 잠재 공간 안에서만 상호작용·반성·정제를 수행할 수 있다. 최종 라운드에서 오직 마지막 에이전트만 텍스트 출력을 생성한다. 마치 에이전트들이 하나의 통합된 존재로 텔레파시처럼 소통하고, 마지막 에이전트가 최종 텍스트 응답을 제공하는 것과 같다.
잠재 협업 아키텍처
연속적인 잠재 공간 협업을 가능하게 하기 위해 저자들은 RecursiveLink라는 특수 아키텍처 컴포넌트를 도입했다. 이는 텍스트를 디코딩하도록 강요하는 대신 모델의 잠재 상태를 전달하고 정제하도록 설계된 가벼운 2‑계층 모듈이다.
언어 모델의 마지막 층 은닉 상태는 추론 과정의 풍부하고 의미론적인 표현을 담고 있다. RecursiveLink는 이러한 고차원 정보를 한 임베딩 공간에서 다른 임베딩 공간으로 보존하고 전달하도록 설계되었다.
여러 대형 언어 모델에 걸쳐 모든 파라미터를 업데이트하는 비용을 피하기 위해, 프레임워크는 모델 파라미터를 고정(freeze)한다. 대신 RecursiveLink 모듈의 파라미터만 학습함으로써 시스템을 최적화한다.
내부 추론과 외부 통신을 모두 처리하기 위해 두 가지 변형이 사용된다. Inner RecursiveLink는 에이전트 내부에서 추론 단계 동안 작동한다. 모델이 새로 만든 임베딩을 받아 바로 자신의 입력 임베딩 공간으로 매핑한다. 이를 통해 에이전트는 이산적인 텍스트 토큰을 생성하지 않고도 연속적인 잠재 사유 흐름을 지속적으로 생성할 수 있다.
Outer RecursiveLink는 에이전트 간의 다리 역할을 한다. 실제 시스템에서는 에이전트마다 모델 구조와 규모가 다를 수 있기 때문에, 내부 임베딩 공간의 차원도 완전히 다를 수 있다. Outer RecursiveLink는 추가적인 계층을 포함해 한 에이전트의 은닉 차원을 다음 에이전트의 임베딩 공간에 맞추도록 설계되었다.
학습 과정에서는 먼저 Inner Link를 독립적으로 학습시켜 각 에이전트가 연속적인 잠재 임베딩으로 사고할 수 있도록 워밍업한다. 그 다음에는 외부 루프 학습 단계에 들어가, 고정된 다양한 모델들을 루프 형태로 연결하고 마지막 에이전트의 최종 텍스트 출력에 기반해 시스템을 평가한다.
학습 과정에서 업데이트되는 유일한 요소는 RecursiveLink 파라미터이며, 원본 모델 가중치는 LoRA와 유사하게 변하지 않는다. 이 시스템의 또 다른 장점은 동일한 백본 모델 위에 여러 에이전트를 배치할 때 나타난다.
예를 들어, 두 에이전트가 정확히 같은 기반 모델을 사용하지만 서로 다른 역할을 수행한다면, 모델을 두 번 GPU 메모리에 로드하거나 별도로 학습할 필요가 없다. 에이전트들은 동일한 백본을 뇌처럼 공유하고, RecursiveLink를 연결 조직으로 활용한다.
RecursiveMAS 실험 결과
연구진은 RecursiveMAS를 수학·과학·의학, 코드 생성, 검색 기반 질문 응답 등 9개의 벤치마크에 걸쳐 평가했다. Qwen, Llama‑3, Gemma‑3, Mistral 등 오픈‑웨이트 모델을 사용해 멀티에이전트 시스템을 구축했으며, 순차 추론, 전문가 혼합 협업 등 다양한 에이전트 협업 패턴을 부여했다.
RecursiveMAS는 동일한 학습 예산 하에서 LoRA 또는 전체 지도 파인튜닝으로 강화된 단일 모델, Mixture‑of‑Agents·TextGrad 같은 대안 멀티에이전트 프레임워크, LoopLM 같은 재귀 베이스라인과 비교되었다. 또한 RecursiveMAS와 동일한 재귀 루프 구조를 사용하지만 에이전트가 텍스트로 명시적으로 소통하도록 만든 Recursive‑TextMAS와도 비교했다.
그 결과 RecursiveMAS는 벤치마크 전반에 걸쳐 가장 강력한 베이스라인 대비 평균 정확도가 8.3 % 향상되었다. 특히 추론이 무거운 작업에서는 AIME2025에서 TextGrad 대비 18.1 %, AIME2026에서 13 % 높은 성능을 보였다.
텍스트를 매 단계마다 생성하지 않음으로써 RecursiveMAS는 엔드‑투‑엔드 추론 속도를 1.2배에서 2.4배까지 가속했다.