⚔️ 동일 작업을 Hermes Agent, LangGraph, AutoGen에 적용해 본 실제 결과

발행: 2주 전 (2026년 5월 24일 PM 11:35 GMT+9)

9 분 소요

출처: Dev.to

이 글은 Hermes Agent Challenge: Write About Hermes Agent 에 대한 제출물입니다.

요즘 에이전트 프레임워크가 열두 개 정도나 있습니다. 매주 새로운 것이 출시되고, 블로그마다 “우리 프레임워크가 최고다”라고 주장하죠. 🙄
하지만 같은 복잡한 작업을 여러 프레임워크에 그대로 적용해 보고 결과를 나란히 비교한 사례는 없습니다. 벤치마크는 이론적이고, 블로그 글은 편향되며, 데모는 선택적으로 보여줍니다.

그래서 직접 실험해 보았습니다. 🧪
실제 개발자가 실제로 만들 수 있는 실제 작업 하나를 골라, 가장 화제가 된 세 가지 에이전트 프레임워크에 동일하게 적용했습니다.

프레임워크	설명
🟢 Hermes Agent	Nous Research에서 만든 오픈소스 에이전트 시스템
🔵 LangGraph	LangChain의 그래프 기반 에이전트 프레임워크
🟣 AutoGen	Microsoft의 멀티‑에이전트 대화 프레임워크

동일한 작업, 동일한 모델, 동일한 평가 기준. 선택적 편향 없이 진행했습니다.

실험에 사용한 작업

“2026년 최신 로컬 AI 모델 동향을 조사하고, 상위 3개를 요약·비교한 뒤, 개발자에게 가장 적합한 모델을 선정하는 블로그 초안을 작성한다.”

이 작업에 필요한 요소:

🔍 웹 검색 (정보 찾기)
🧠 다단계 추론 (비교·분석)
📝 콘텐츠 생성 (블로그 글 작성)
🔧 도구 활용 (검색 API, 텍스트 처리)
📊 구조화된 출력 (정리된 비교표)

Hermes Agent 설치

pip install hermes-agent

또는 Ollama 로 로컬 실행

ollama pull hermes-agent

from hermes_agent import HermesAgent

agent = HermesAgent(
    model="hermes-3-llama-3.1-8b",  # Ollama 로 로컬 모델
    tools=["web_search", "text_analysis", "content_writer"],
    memory=True,          # 세션 간 지속 메모리
    planning=True        # 다단계 플래닝 활성화
)

result = agent.run(
    "2026년 로컬 AI 모델 최신 동향을 조사하고, "
    "상위 3개를 요약·비교한 뒤, 개발자에게 가장 적합한 모델을 "
    "선정하는 블로그 초안을 작성해 주세요."
)

📋 생성된 플랜

“local AI models 2026” 검색 → 출처 수집
주요 모델 추출 (Gemma 4, Llama 4, Mistral)
각 모델의 사양·벤치마크·사용 사례 수집
속도·품질·크기·라이선스 등 차원별 비교
비교표 포함 블로그 글 작성
검토·다듬기

⚡ 실행 결과

Step 1: 웹 검색 → 12개 관련 출처 발견 ✅
Step 2: 후보 5개 모델 중 3개로 축소 ✅
Step 3: 상세 사양 수집 ✅
Step 4: 비교표 작성 ✅
Step 5: 800단어 블로그 초안 생성 ✅
Step 6: 자체 검토, 사실 오류 2건 수정 ✅

⏱️ 총 소요 시간: 47 초
📊 출력 품질: 구조화 잘 됨, 사실 정확하지만 스타일 약간 부족

장점 / 단점

✅ 플래닝 우수 – 실행 전 6단계 명확히 설계
✅ 자체 교정 – 검토 단계에서 오류 잡음
✅ 로컬 우선 – 노트북만으로 전 과정 수행, API 비용 없음
❌ 속도 – 클라우드 대비 느림 (~47 s vs ~15 s)
❌ 도구 통합 – 웹 검색이 불안정, 재시도 2회 필요
❌ 문서 – 설정에 예상보다 시간 소요

LangGraph 설치

pip install langgraph langchain-openai

from langgraph.graph import StateGraph, END
from langchain_openai import ChatOpenAI

# 그래프 정의
workflow = StateGraph(AgentState)

# 노드 추가
workflow.add_node("researcher", research_node)
workflow.add_node("analyzer", analysis_node)
workflow.add_node("writer", writing_node)
workflow.add_node("reviewer", review_node)

# 엣지 연결
workflow.add_edge("researcher", "analyzer")
workflow.add_edge("analyzer", "writer")
workflow.add_edge("writer", "reviewer")
workflow.add_edge("reviewer", END)

# 진입점 설정
workflow.set_entry_point("researcher")

# 컴파일·실행
app = workflow.compile()
result = app.invoke({"task": "2026년 로컬 AI 모델 조사..."})

📋 그래프 실행 흐름 researcher → analyzer → writer → reviewer → END

⚡ 실행 결과

researcher: 웹 검색 → 15개 출처 발견 ✅
analyzer: 3개 모델 추출·비교 ✅
writer: 1,200단어 블로그 초안 생성 ✅
reviewer: 수정 없이 승인 ✅

⏱️ 총 소요 시간: 18 초
📊 출력 품질: 포괄적이고 포맷도 좋지만 약간 장황

장점 / 단점

✅ 속도 – 세 프레임워크 중 가장 빠름 (~18 s)
✅ 그래프 시각화 – 흐름을 눈으로 확인 가능
✅ 생태계 – LangChain 도구·통합 모두 활용 가능
✅ 유연성 – 노드 추가·삭제·재배열이 쉬움
❌ 보일러플레이트 – 간단 작업에도 코드가 많음
❌ 클라우드 의존 – OpenAI API 필요 (비용 발생)
❌ 자체 교정 부재 – 리뷰어가 사실 오류를 놓침
❌ 복잡도 – 단순 작업에 과도함

AutoGen 설치

pip install autogen-agentchat

import autogen

# 에이전트 생성
researcher = autogen.AssistantAgent(
    name="Researcher",
    system_message="AI 최신 동향을 철저히 조사합니다.",
    llm_config={"model": "gpt-4o"}
)

writer = autogen.AssistantAgent(
    name="Writer",
    system_message="흥미로운 블로그 글을 씁니다.",
    llm_config={"model": "gpt-4o"}
)

reviewer = autogen.AssistantAgent(
    name="Reviewer",
    system_message="콘텐츠를 검토·개선합니다.",
    llm_config={"model": "gpt-4o"}
)

user_proxy = autogen.UserProxyAgent(
    name="User",
    human_input_mode="NEVER"
)

# 그룹 채팅 구성
groupchat = autogen.GroupChat(
    agents=[user_proxy, researcher, writer, reviewer],
    messages=[],
    max_round=10
)

manager = autogen.GroupChatManager(groupchat=groupchat)

# 실행
user_proxy.initiate_chat(
    manager,
    message="2026년 로컬 AI 모델 조사..."
)

📋 대화 흐름 User → Researcher → Writer → Reviewer → Writer → Reviewer → Done

⚡ 실행 결과

Researcher: 10개 출처 찾고 요약 ✅
Writer: 1,500단어 블로그 초안 작성 ✅
Reviewer: “너무 길고 실용적 내용 부족”
Writer: 1,000단어로 축소, 실용 섹션 추가 ✅
Reviewer: “비교표 추가해 주세요.”
Writer: 비교표 삽입 ✅
Reviewer: 승인 ✅

⏱️ 총 소요 시간: 34 초
📊 출력 품질: 전반적으로 우수 – 다듬어지고 초점이 명확함

장점 / 단점

✅ 멀티‑에이전트 토론 – 서로의 작업을 실제로 개선
✅ 출력 품질 – 세 프레임워크 중 최고 (리뷰 루프 덕분)
✅ 자연스러운 대화 – 실제 팀 협업 느낌
✅ 유연성 – 특화된 에이전트 추가가 쉬움
❌ 비용 – 여러 에이전트·다중 라운드 → API 비용 증가
❌ 예측 불가 – 대화가 탈선할 수 있어 라운드 제한 필요
❌ 클라우드 전용 – 로컬 모델 지원 기본 제공 안 함
❌ 디버깅 어려움 – 각 에이전트의 행동 추적이 복잡

비교 표

Metric	🟢 Hermes Agent	🔵 LangGraph	🟣 AutoGen
⏱️ 속도	47 s	18 s	34 s
💰 비용	$0 (로컬)	~$0.15	~$0.35
📊 출력 품질	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
🔧 설정 난이도	중간	어려움	쉬움
🧠 자체 교정	✅ 있음	❌ 없음	✅ 토론 기반
🏠 로컬 지원	✅ 완전	⚠️ 부분적	❌ 없음
📝 **

⚔️ 동일 작업을 Hermes Agent, LangGraph, AutoGen에 적용해 본 실제 결과

실험에 사용한 작업

Hermes Agent 설치

또는 Ollama 로 로컬 실행

LangGraph 설치

AutoGen 설치

비교 표

관련 글

내 스킬

PREDICTION-20260525-0007: 비대칭 레버리지를 이용한 지루함 [2026-Q3 through 2027-Q3]

서버 없이 100개의 브라우저 기반 이미지 도구를 만든 방법 (FFmpeg WASM, PDF-lib, AI Background Removal)

Nginx CVE-2026-9256, AI 프롬프트 인젝션 방어, 그리고 Claude AI 데이터 유출 데모