‘왜?’에서 와우까지: 구글과 함께한 5일 AI Agents 집중 코스 후 멀티-에이전트 스토리텔러 구축
Source: Dev.to
나의 “아하!” 순간: AI 에이전트는 단순한 챗봇 그 이상
5일간의 AI Agents Intensive 이전에 나는 AI 에이전트를 주로 대화형 인터페이스—질문에 답할 수 있는 스마트 챗봇—로만 생각했습니다. 이 코스는 그 인식을 완전히 깨뜨렸습니다.
핵심 인사이트는 에이전트를 전문 도구들의 오케스트레이터로 보는 것이었습니다. 하나의 거대한 모델이 모든 일을 하는 것이 아니라, 복잡한 문제를 분해하고 작업을 가장 적합한 “전문가”에게 위임하는 추론 엔진에 관한 것이었습니다. 단일형에서 모듈형·도구 중심 사고로의 전환이 나의 가장 큰 “아하!” 순간이었습니다.
멀티‑에이전트 시스템(Day 1)과 Tools/MCP(Day 2)에 대한 깊은 탐구는 게임 체인저였습니다. 나는 전능한 하나의 에이전트를 만들 생각을 멈추고, “코디네이터”가 관리하는 “작업 에이전트” 팀을 만드는 방향으로 생각하기 시작했습니다.
Before vs. After
- Before: “모델에게 이야기를 만들고, 이미지를 생성하고, 오디오까지 만들게 하려면 어떻게 프롬프트를 짜야 할까?”
- After: “코디네이터 에이전트가 세 개의 전문 에이전트—Writer (Gemini), Illustrator (Flux.1), Narrator (OpenAI TTS)—를 어떻게 관리해서 병렬로 작업하고, 더 빠르고 효율적으로 결과를 전달하게 할 수 있을까?”
이 변화는 바로 내 캡스톤 프로젝트의 영감이 되었습니다.
캡스톤 프로젝트: Curiosity Storybook
Agents for Good 트랙을 위해 나는 Curiosity Storybook을 만들었습니다. 이 AI 에이전트는 아이의 “왜?”라는 질문을 마법 같은 다감각 학습 경험으로 바꿔줍니다. 건조한 답변 대신, 다음을 포함한 완전하고 개인화된 스토리북 페이지를 생성합니다:
- 이야기,
- 일러스트,
- 오디오 내레이션.
GitHub Repository
YouTube video
General Architecture
- Frontend (UI/UX) – 어린이 친화적인 인터페이스를 Gradio로 구축하고, Hugging Face Spaces에 호스팅.
- Agent Orchestrator – Blaxel로 관리되는 메인 에이전트, 추론 및 콘텐츠 생성을 위해 Gemini 2.5 Pro 사용.
- Tools
- 내러이션 같은 특정 작업을 위한 도구를 노출하는 커스텀 MCP (Model Context Protocol) 서버.
- 이미지 생성처럼 오래 걸리는 작업은 직접 고성능 컴퓨팅 서비스에 호출.
- AI Models
- Google Gemini 2.5 Pro – 메인 스토리와 일러스트 프롬프트 생성.
- Flux.1‑schnell – 고품질 이미지 생성.
- OpenAI TTS – 오디오 내레이션.
- Hyperbolic (Llama 3.3) – 초고속 관련 질문 생성.
Building the Project
- Coordinator/Specialist 패턴 구현: Blaxel의 메인 에이전트가 세 개의 병렬 작업을 오케스트레이션하고, 각각은 전문 모델이 담당. 이야기가, 이미지가, 오디오가 동시에 생성되는 모습을 보며 이 아키텍처가 사용자 경험에 주는 힘을 체감했습니다.
- Context Engineering 적용 (Day 3):
ConversationContext클래스를 만들어 히스토리를 압축(요약)하고 이를 “Question Suggester” 에이전트(Hyperbolic)에 전달. 이를 통해 전체 대화 기록을 모두 전달하지 않아도 관련 후속 질문을 빠르게 제안할 수 있어 시스템이 빠르고 효율적이었습니다. - Observability를 처음부터 도입 (Day 4): 모든 도구 호출에 로깅과
session_id기반 트레이싱을 추가. 이미지 생성이 한 번 실패했을 때 로그를 통해 정확한 단계가 바로 파악돼, 이 원칙의 즉각적인 가치를 확인했습니다.
Key Lessons
- 멀티‑에이전트 시스템은 이론이 아니라 실용적이다 – Coordinator/Specialist 패턴이 실제 애플리케이션에서 작동한다.
- Context Engineering이 비밀 소스 – 대화 히스토리를 요약하면 빠르고 관련성 높은 제안을 할 수 있다.
- Observability는 사후 작업이 아니다 – 초기 단계부터 로깅과 트레이싱을 구축하면 디버깅이 쉬워지고 신뢰성이 향상된다.
AI Agents Intensive 코스는 내 사고 방식을 “프롬프트”에서 “시스템”으로 전환시켰습니다. “Curiosity Storybook”은 그 여정의 구체적인 결과물이며, 에이전트를 단순 챗 인터페이스가 아닌 복합적인 문제 해결 엔진으로 보여줍니다.