Local LLM Agent Benchmark: 실제 시나리오에서 6개 모델 비교

발행: 3일 전 (2026년 2월 28일 오후 04:01 GMT+9)

10 분 소요

Source: Dev.to

실제 결과 정확성을 기준으로 AI 에이전트 성능 측정, 도구 호출 존재 여부만이 아니라

왜 우리는 이 벤치마크를 만들었는가

“일반 사용자가 접근하기 쉽도록 만들려면 가능한 한 낮은 VRAM 사용량을 가진 LLM을 찾는 것이 중요합니다.”

대부분의 LLM 벤치마크는 MMLU, HumanEval, HellaSwag와 같은 학술 지표로 모델을 평가합니다.
툴을 사용하는 AI 에이전트에 대해 진정 중요한 것은 *“올바른 도구를 호출했는가?”*가 아니라 “실제로 올바른 결과를 산출했는가?” 입니다.

우리 프로젝트 Androi는 웹 검색, 파이썬 실행, 파일 관리, 이메일, 캘린더 등 10개 이상의 도구를 사용하는 로컬 AI 에이전트입니다. 우리는 다양한 LLM을 동일한 에이전트에 연결하고 5개의 동일하고 복잡한 실제 시나리오를 실행했으며, 각 결과의 정확성을 기준으로 점수를 매겼습니다.

테스트 환경

구성 요소	사양
서버	Ubuntu VM (3.8 GB RAM, 20 GB SSD)
런타임	Ollama (local inference)
프레임워크	Androi Agent (Node.js + Python tool pipeline)
검증	Outcome‑Based Validation (v2)
테스트 날짜	2026‑02‑28

5가지 실제 테스트 시나리오 (총 39개 체크)

각 테스트는 에이전트가 여러 도구를 순차적으로 연결하여 복잡하고 다단계 작업을 완료하도록 요구합니다.

U01. 🏦 글로벌 자산 리밸런싱 어드바이저 (9개 체크)

시나리오
사용자는 삼성전자 50주, 비트코인 0.1 BTC, 미화 $3,000, 금 1 oz를 보유하고 있습니다. 에이전트는 다음을 수행해야 합니다:

각 자산(삼성 주식, 비트코인, USD/KRW 환율, 금 가격)의 웹 검색을 통해 현재 가격을 확인합니다.
모든 가치를 KRW로 변환하고 포트폴리오 총 가치를 계산합니다.
Python 실행으로 각 자산의 비중(%)을 계산합니다.
이상적인 배분(주식 40 %, 암호화폐 20 %, USD 20 %, 금 20 %)과 비교하여 리밸런싱을 권고합니다.
보고서를 /tmp/rebalance_report.txt에 저장합니다.
다음 금요일 검토를 위해 캘린더 이벤트를 등록합니다.
보고서를 이메일(첨부 파일)로 전송합니다.

검증 체크

삼성 가격
비트코인 가격
USD/KRW 환율
금 가격
포트폴리오 총액 계산
비중 분석
리밸런싱 권고
보고서 파일 저장
이메일 전송

필요한 도구
web_search × 4, run_python_code / calculate, write_file, create_event, send_email

U02. 📊 실시간 기술 트렌드 조사 및 보고 (8개 체크)

시나리오

“AI semiconductor market forecast 2026” 검색 → 시장 규모 데이터 수집.
“NVIDIA HBM market share 2026” 검색 → 경쟁 구도 파악.
“Samsung HBM3E mass production” 검색 → 한국 산업 현황 확인.
수집된 데이터를 이용해 Python으로 마크다운 보고서 생성.
보고서를 /tmp/ai_semiconductor_report.md에 저장.
트렌드 업데이트를 위한 주간 자동 작업을 등록.
보고서를 이메일로 전송.

검증 체크

시장 규모 언급
NVIDIA 언급
HBM 언급
삼성 트렌드 포함
SK Hynix 트렌드 포함
보고서 저장
자동 작업 등록
이메일 전송

필요한 도구
web_search × 3, run_python_code, write_file, create_task, send_email

U03. 🖥️ 서버 상태 점검 + 자동 복구 + 알림 (7개 체크)

시나리오

df -h 실행 → 디스크 사용량 확인.
free -h 실행 → 메모리 상태 확인.
systemctl list-units --state=failed 실행 → 실패한 서비스 목록 확인.
Python을 사용해 /var/log/syslog의 최근 50줄을 분석하여 ERROR/WARNING/CRITICAL 발생 빈도 파악.
find 명령으로 7일 이상 된 임시 파일 목록 생성.
위험 수준 평가(High/Medium/Low)를 포함한 전체 보고서를 저장.
시간당 자동 점검 작업을 등록.

검증 체크

디스크 사용량 캡처
메모리 상태 캡처
서비스 상태 캡처
로그 분석 캡처
위험 수준 평가 제공
보고서 저장
자동 작업 등록

필요한 도구
run_command × 4, run_python_code, write_file, create_task

U04. 🌍 여행 플래너 (8개 체크)

시나리오

“Jeju Island February weather” 검색 → 기온 및 날씨 조건 확인.
“Jeju winter restaurant recommendations 2026” 검색 → 3개의 레스토랑 선정.
“Jeju winter tourist attractions” 검색 → 3개의 관광지 선정.
Python을 사용해 Day 1 / Day 2 일정표(09:00 – 21:00, 관광지와 레스토랑을 교대로 배치) 작성.
예산 계산: 식사 30 K KRW × 6 = 180 K, 숙박 150 K, 교통 50 K → 총 380 K KRW.
여행 계획을 파일에 저장.
출발 및 귀국을 위한 캘린더 이벤트 2개 등록.
계획을 이메일로 전송.

검증 체크

날씨 정보 포함
레스토랑 추천 포함
관광지 포함
Day 1 / Day 2 구분 존재
일정표 생성
비용 계산 표시
캘린더 이벤트 생성
이메일 전송

필요한 도구
web_search × 3, run_python_code, calculate, write_file, create_event × 2, send_email

U05. 🧬 코드 분석 + 최적화 + 배포 (7개 체크)

시나리오

read_file → 전체 소스 코드를 읽어들임.

코드.
2. Python 실행하여 라인 수, 함수 수, 클래스 수를 셉니다.
3. wc -l /root/xoul/tools/*.py 실행 → 전체 모듈 크기.
4. calculate를 사용하여 tool_registry.py가 전체 코드베이스에서 차지하는 비율을 계산합니다.
5. 분석 보고서를 /tmp/code_analysis.txt에 저장합니다.
6. 주요 결과를 메모리에 저장합니다 (recall/memorize).
7. 보고서를 이메일로 전송합니다.

검증 항목

라인 수 보고
함수 수 보고
전체 모듈 크기 보고
비율 계산
코드 구조 설명
보고서 저장
이메일 전송

필요한 도구
read_file, run_python_code, run_command, calculate, write_file, memorize, send_email

Validation Method: Outcome‑Based

Instead of checking “did it call the right tool?”, we verify “does the output contain the correct information?”

100% = 🏆 PERFECT — All validation checks passed
≥70% = ✅ GOOD    — Most critical outcomes achieved
≥50% = ⚠️ PARTIAL — More than half achieved
**Observation:** For agent tasks, tool‑use capability and instruction following matter more than raw parameter count.

Personally, I think full‑weight models perform better than MoE models for tasks like the toolchains required for Agents. (Unverified)

2. Quantization Affects Agent Quality

Comparing Qwen3‑8B Q8 vs Qwen3‑8B Q4: the Q4 variant exhibited tool‑call repetition loops, repeating df -h && free -h six times in U03.
This suggests that tool‑chaining stability is sensitive to quantization levels.

3. Speed vs. Accuracy Trade‑offs

Model	정확도	속도
GPT‑oss‑20B	95 % (가장 빠름)	264 s – 명확한 승자
Qwen3.5‑27B	95 % (동률)	1 101 s – 깊이가 중요할 때
Qwen3‑8B Q8	92 %	377 s – 파라미터당 최고의 성능, 리소스가 제한된 환경에 이상적

4. “Chain Completion” Is the Key Differentiator

대부분의 모델은 중간 단계(검색, 분석)를 잘 처리합니다.
실제 차별화는 체인의 마지막 단계—이메일 전송, 파일 저장, 자동 작업 등록—에서 나타납니다.
Qwen3.5‑35B‑A3B는 이러한 최종 단계에서 특히 약했습니다.

결론

로컬 AI 에이전트를 위한 LLM을 선택할 때는 벤치마크 점수뿐만 아니라 툴‑체인 완성률, 지시 준수도, 응답 속도를 함께 평가해야 합니다.

🏆 전체 최고 – GPT‑oss‑20B (속도 + 정확도 리더)
💰 가성비 최고 – Qwen3‑8B Q8 (8 B 파라미터만으로 92 %를 377 초에 달성)
🔬 가장 깊은 분석 – Qwen3.5‑27B (PERFECT 점수 최다 4개)

테스트 코드와 전체 결과는 아래에서 확인할 수 있습니다.

Local LLM Agent Benchmark: 실제 시나리오에서 6개 모델 비교

실제 결과 정확성을 기준으로 AI 에이전트 성능 측정, 도구 호출 존재 여부만이 아니라

왜 우리는 이 벤치마크를 만들었는가

테스트 환경

5가지 실제 테스트 시나리오 (총 39개 체크)

U01. 🏦 글로벌 자산 리밸런싱 어드바이저 (9개 체크)

U02. 📊 실시간 기술 트렌드 조사 및 보고 (8개 체크)

U03. 🖥️ 서버 상태 점검 + 자동 복구 + 알림 (7개 체크)

U04. 🌍 여행 플래너 (8개 체크)

U05. 🧬 코드 분석 + 최적화 + 배포 (7개 체크)

Validation Method: Outcome‑Based

2. Quantization Affects Agent Quality

3. Speed vs. Accuracy Trade‑offs

4. “Chain Completion” Is the Key Differentiator

결론

관련 글

일이 정신 건강 위험이 될 때

가장 어려운 부분은 보이지 않는 것이 아니라—하나의 차원으로 평평해지는 것이다

근시, 외사시, 그리고 코드: 근시 전문인을 위한 시력 훈련 도구 개발

다음 디지털 제품은 89% 확률로 정확히 $0을 벌게 됩니다