Sakana가 7B 모델을 훈련시켜 GPT-5, Claude Sonnet 4 및 Gemini 2.5 Pro를 오케스트레이션하는 방법

발행: (2026년 5월 8일 AM 06:23 GMT+9)
14 분 소요

Source: VentureBeat

Hard‑Coded LangChain 파이프라인의 문제

“팀이 하드코딩한 모든 LangChain 파이프라인은 쿼리 분포가 바뀌는 순간 깨지며—그 변화는 언제나 일어납니다.”

그 병목 현상을 Sakana AI가 없애고자 합니다.

RL Conductor 소개

Sakana AI의 연구원들은 소형 언어 모델을 **강화 학습(RL)**을 통해 훈련시켜 다양한 워커 LLM 풀을 자동으로 오케스트레이션하도록 만들었습니다.

  • 동적 분석: 각 입력에 대해
  • 노동 분배: 다수 워커에 걸쳐
  • 조정: 에이전트 간

그 결과: 최첨단 성능을 하드 추론 및 코딩 벤치마크에서 보여주며, GPT‑5Claude Sonnet 4와 같은 최첨단 모델 및 비용이 많이 드는 인간 설계 멀티 에이전트 파이프라인을 능가합니다. 이 모든 것이 비용의 일부만으로, 경쟁 솔루션보다 API 호출 횟수를 줄여 달성됩니다.

RL Conductor는 Sakana AI의 상업용 멀티 에이전트 오케스트레이션 서비스인 Fugu의 핵심입니다.

수동 에이전시 프레임워크의 한계

대형 언어 모델은 강력한 잠재 능력을 가지고 있지만, 그 능력을 완전히 활용하는 것은 여전히 큰 과제입니다. 현재 상용 AI 제품은 수동으로 설계된 에이전시 워크플로에 크게 의존하고 있으며, 이는 몇 가지 근본적인 문제를 안고 있습니다:

  1. 경직성 및 제한된 설계

    • 하드코딩된 파이프라인(예: LangChain, Mixture‑of‑Agents)은 좁은 사용 사례에는 잘 작동하지만 사용자 요구가 이질적이 될 때 프로덕션 환경에서 망가집니다.
  2. 저자 인용

    “LangChain이나 Mixture‑of‑Agents와 같이 하드코딩된 파이프라인을 사용하는 프레임워크는 특정 사용 사례에 대해서는 잘 작동할 수 있지만 … 프로덕션에서는 매우 이질적인 요구를 가진 대규모 사용자 기반을 대상으로 할 때 내재된 병목 현상이 발생합니다.”
    Yujin Tang, 공동 저자 (VentureBeat 인터뷰)

    Tang은 덧붙였습니다: “이러한 이질적인 애플리케이션에서 실제 세계 일반화를 이루려면 인간이 하드코딩한 설계를 넘어서는 것이 필수적입니다.”

  3. 모든 작업에 최적의 단일 모델은 존재하지 않음

    • 서로 다른 모델은 서로 다른 분야(과학적 추론, 코드 생성, 수학 논리, 고수준 계획 등)에서 뛰어납니다.
    • 각 쿼리마다 이상적인 모델 조합을 수동으로 예측하고 하드코딩하는 것은 실질적으로 불가능합니다.

최적의 에이전시 프레임워크는 다음을 수행해야 합니다:

  • 문제를 자동으로 분석한다.
  • 하위 작업을 풀(pool) 내 가장 적합한 전문가에게 위임한다.

Source:

에이전트 오케스트라 지휘

RL Conductor는 위의 한계를 극복하기 위해 구축되었습니다. 이름이 시사하듯이, 에이전트들의 오케스트라를 지휘합니다:

  1. 도전적인 문제를 하위 작업으로 분할합니다.
  2. 각 하위 작업을 대상 워커 LLM위임합니다.
  3. 통신 토폴로지를 설계합니다 (누가 어떤 이전 출력물을 볼 수 있는지 정의).

작동 방식

  • 자연어 워크플로우 생성: 각 단계마다 Conductor는 평범한 영어 지시문을 내보내고, 에이전트를 지정하며, 해당 에이전트의 컨텍스트에 포함될 이전 하위 작업 및 응답을 명시하는 액세스 리스트를 생성합니다.
  • 유연한 구조:
    • 단순 순차 체인
    • 병렬 트리 구조
    • 필요 시 재귀 루프

이 모든 과정은 핸드‑크래프트 규칙이 아닌 강화 학습을 통해 학습됩니다:

학습 신호최적화 대상
작업 + 워커 풀정답 및 올바른 출력 형식
보상 (이진/등급)작업 성공률 극대화

시도와 오류를 거치면서 Conductor는 다음과 같은 고급 오케스트레이션 전략을 발견합니다:

  • 목표 지향 프롬프트 엔지니어링
  • 반복적 정교화
  • 메타‑프롬프트 최적화

이렇게 모델은 전략을 동적으로 조정하고, 인간이 코딩한 라우팅 로직 없이도 각 워커의 강점을 활용합니다.

Source:

Conductor in Action

실험 설정

  • Base model: 7‑billion‑parameter Qwen2.5‑7B 를 RL Conductor 프레임워크로 파인‑튜닝함.
  • Worker pool (7 models):
    • 클로즈드‑소스 대형 모델: Gemini 2.5 Pro, Claude‑Sonnet‑4, GPT‑5
    • 오픈‑소스 모델: DeepSeek‑R1‑Distill‑Qwen‑32B, Gemma3‑27B, Qwen3‑32B, 외 1개 모델.

Conductor는 최대 다섯 단계까지의 에이전시 워크플로 설계를 담당했습니다.

벤치마크 및 결과

BenchmarkScore (Conductor)Comparison
Overall average77.27 %최신 최첨단 수준
AIME25 (math)93.3 %보고된 최고치
GPQA‑Diamond87.5 %
LiveCodeBench83.93 %

효율성

  • Tokens per question:
    • Baseline MoA: 11,203 토큰
    • RL Conductor: 1,820 토큰 (≈ 6× 적음)
  • Average workflow steps: 3

작동 원리

  • Task‑difficulty awareness:

    • 간단한 사실 질의 → 단일 단계 또는 두 에이전트 워크플로.
    • 복잡한 코딩 문제 → 최대 네 에이전트 (계획, 구현, 검증 등).
  • Model‑strength exploitation:

    • Conductor는 최첨단 모델들이 보완적인 강점을 가지고 있음을 학습하고, 하위 작업을 적절히 라우팅합니다 (예: 추론에는 Claude‑Sonnet‑4, 코드 생성에는 Gemini 2.5 Pro 사용).

요약

  • Hard‑coded pipelines are brittle in the face of shifting query distributions. → 하드코딩된 파이프라인은 쿼리 분포가 변할 때 취약합니다.
  • RL Conductor demonstrates that a small, RL‑trained model can dynamically orchestrate a heterogeneous pool of LLMs, achieving superior accuracy and dramatically lower token usage. → RL Conductor작은, RL‑학습 모델이 이기종 LLM 풀을 동적으로 오케스트레이션할 수 있음을 보여주며, 우수한 정확도극적으로 낮은 토큰 사용량을 달성합니다.
  • The approach paves the way for scalable, cost‑effective multi‑agent services like Fugu, moving beyond the limits of manual agentic designs. → 이 접근법은 Fugu와 같은 확장 가능하고 비용 효율적인 멀티 에이전트 서비스의 길을 열어 주며, 수동적인 에이전트 설계의 한계를 넘어섭니다.

컨덕터 주도 벤치마크 성공

To achieve record scores on coding benchmarks, the Conductor frequently assigned Gemini 2.5 Pro and Claude Sonnet 4 to act as high‑level planners, bringing in GPT‑5 only at the very end to write the final optimized code.

In a particularly clever display of adaptability, the Conductor would sometimes abdicate its own role entirely, handing the entire planning process over to Gemini 2.5 Pro and allowing it to dictate the subtasks for the rest of the model pool.

벤치마크를 넘어 – 기업 활용도

“우리는 Fugu 모델—Conductor 기술을 기반으로 구축된—을 내부적으로 다양한 실용적인 기업 애플리케이션에 사용해 왔습니다: 소프트웨어 개발, 심층 연구, 전략 개발, 그리고 슬라이드 생성과 같은 시각 작업까지도,”
Yujin Tang

엔터프라이즈에 오케스트레이션 도입: Sakana Fugu

  • 연구 논문에 기술된 7B 모델은 탐색적 청사진이며 공개적으로 제공되지 않습니다.
  • Sakana AI는 Conductor 프레임워크를 제품화하여 대표 상업용 AI 제품인 Sakana Fugu로 출시했습니다.

현재 상태

  • 베타 단계
  • 표준 OpenAI‑compatible API를 통해 접근 가능한 멀티‑에이전트 오케스트레이션 시스템으로 작동합니다.

목표 시장

“Fugu는 AI 도입이 아직 일반화 제한으로 인해 큰 생산성 향상을 가져오지 못한 금융 및 방위 산업 등 대규모 시장을 목표로 합니다.”
Tang

엔터프라이즈 개발자를 위한 혜택

  • 여러 API 키를 관리하거나 다양한 공급업체 간에 작업을 수동으로 라우팅할 필요 없이 기존 애플리케이션에 원활하게 통합됩니다.
  • API 뒤에서 Fugu는 복잡한 협업 토폴로지역할 할당을 모델 풀 전체에 자동화합니다.

제품 변형

변형목적주요 특징
Fugu Mini낮은 지연 시간 작업속도에 최적화되어 실시간 사용 사례에 적합
Fugu Ultra고부하 작업에 대한 최대 성능무거운 계산 부하에 확장 가능하며 대규모 작업에 최적

거버넌스 및 해석 가능성

  • Tang은 해석 가능성 위험이 현재 최고 수준의 폐쇄형 API의 숨겨진 추론 흔적과 기능적으로 유사하다고 언급합니다.
  • 시스템은 확립된 가드레일을 사용하여 환각을 최소화하도록 관리됩니다.

RL‑Orchestration을 전통 라우팅과 언제 사용할까

“절대적인 최적점은 사용자가 자신의 기본 에이전트를 안내하는 데 불균형하게 많은 시간을 소비하고 있다고 느낄 때 나타납니다,”
Tang

  • 주의: 이 프레임워크가 모든 상황에 필요한 것은 아닙니다.
  • 경제적 메모: “단순한 쿼리에 대해 사용자의 머신에서 직접 실행되는 로컬 모델의 경제적 이점을 능가하기는 어렵습니다.”

전망

  • 전문화된 오픈‑ 및 클로즈드‑소스 AI 모델의 다양성이 계속 증가함에 따라 정적 하드코딩 파이프라인은 구식이 될 것입니다.
  • 동적 오케스트레이션은 텍스트와 코드 너머로 확장될 것으로 예상됩니다.

“실제로 이 격차를 메우기 위한 큰 잠재력이 있으며, 교차 모달 Conductor 프레임워크가 보다 자율적이고 자체 조정하는 물리적 AI 시스템의 기반이 될 것입니다.”
Tang

0 조회
Back to Blog

관련 글

더 보기 »