AI 에이전트를 조율하여 밈 만들기
Source: Dev.to

https://mathewdony.com/blog/orchestrating-ai-agents-to-create-memes
AI 에이전트란 무엇일까?
지금쯤 여러분은 직접이든 간접이든 LLM 기반 애플리케이션을 사용해 보았을 것입니다. 간단히 말하면, AI 에이전트는 LLM을 두뇌로 사용하는 애플리케이션에 불과합니다.
이를 인간에 비유하면, LLM은 마음의 사고 부분에 해당합니다. 여러분이 보는 것, 듣는 것, 느끼는 것을 받아들여 의미를 파악하고 다음에 무엇을 할지 결정합니다. 인간의 몸에서는 눈과 귀가 정보를 수집하고, 신경이 그 정보를 뇌에 전달하며, 뇌가 해석하고, 근육이 행동을 수행합니다.
AI 에이전트도 같은 흐름을 따릅니다:
- 입력 – 사용자 또는 환경으로부터 받은 데이터.
- 전처리 – 입력을 정리하고 구조화하는 코드.
- LLM – 무슨 일이 일어나고 있는지 판단.
- 함수/도구 – 판단에 따라 행동을 수행.
두뇌(LLM)는 똑똑하지만, 감각(입력)과 근육(도구)이 없으면 세상과 상호작용할 수 없습니다. 초기 LLM들은 이 한계에 부딪혔습니다: 추론은 가능했지만, 현재 날씨와 같은 실시간 데이터를 가져올 수 없었는데, 이는 필요한 “감각”과 “근육”이 없었기 때문입니다.
도구의 등장
도구는 LLM이 실제로 작업을 수행할 수 있게 해 주는 누락된 조각들입니다. LLM을 두뇌에, 도구를 손, 센서, 외부 능력에 비유하면 됩니다. 도구를 두뇌에 연결하면 데이터를 가져오고, 행동을 취하고, 이전에 시도할 수 없던 작업들을 처리할 수 있게 됩니다.
도구가 보편화되면서, 에이전트와 LLM이 도구와 소통할 표준 방식이 필요해졌습니다. Anthropic은 Model Context Protocol (MCP) 을 도입해 도구 정의와 사용을 위한 통합 스키마를 제공했습니다.
Meme MCP 서버 만들기
ImgFlip의 caption_image API를 감싸는 MCP 서버를 구축했습니다. 이 서버는 Meme 에이전트가 호출할 수 있는 단일 도구를 노출합니다. npm에 imgflip-meme-mcp 로 공개했으며, 템플릿 ID, 캡션, API 인증 정보를 받아 generate_meme 도구를 제공합니다.
3 에이전트 팀

최종 사용자는 Supervisor 에이전트와만 대화합니다. Emotion이나 Meme 에이전트와 직접 상호작용하지 않으므로 경험이 깔끔해지고, 조정은 백그라운드에서 이루어집니다.
모든 기능을 하나의 거대한 에이전트와 두 개의 도구로 묶을 수도 있었지만, 다음 세 가지 이유로 나눴습니다:
- 하나의 에이전트에 도구가 너무 많으면 실제로 악화됩니다.
- 특화된 에이전트는 튜닝과 확장이 더 쉽습니다.
- 작업에 따라 저렴한 모델과 고성능 모델을 혼합해 사용할 수 있습니다(예: 감정 요약에는 가벼운 모델, 창의적인 meme 생성에는 강력한 모델).
3 에이전트 구축
Meme 에이전트
Meme 에이전트는 원격 MCP 서버에 접근해 meme generator 도구를 호출합니다:
const memeAgent = createAgent({
model: "GPT-5",
tools: [generateMemeTool],
systemPrompt: "Create a funny meme",
});
Emotion 에이전트
Emotion 에이전트는 사용자의 감정을 분석합니다:
const emotionAgent = createAgent({
model: "GPT-3.5",
systemPrompt: "Analyze what the user is feeling",
});
Supervisor 에이전트
Supervisor 에이전트는 직접 meme을 만들거나 감정을 분석하지 않습니다. 대신 위 에이전트들을 도구로 감쌉니다:
const supervisorAgent = createAgent({
model: "Gemini-3",
tools: [summarizeEmotionTool, generateMemeTool],
systemPrompt:
"You are a Supervisor that is tasked with creating a meme based on the emotions of the user",
});
Supervisor는 summarizeEmotionTool과 generateMemeTool 같은 고수준 도구만 보며, MCP 서버 내부의 저수준 구현 세부사항은 알지 못합니다. 이러한 모듈식 설계는 디버깅과 확장을 훨씬 쉽게 만들어 줍니다.
블로그에서 Meme 에이전트를 직접 체험해 보세요: https://mathewdony.com/blog/orchestrating-ai-agents-to-create-memes
링크
만약 이 에이전트들이 자각하게 된다면, 적어도 유머 감각은 갖게 될 것이다.