Local LLM Agent Benchmark: 실제 시나리오에서 6개 모델 비교
Source: Dev.to
실제 결과 정확성을 기준으로 AI 에이전트 성능 측정, 도구 호출 존재 여부만이 아니라
왜 우리는 이 벤치마크를 만들었는가
“일반 사용자가 접근하기 쉽도록 만들려면 가능한 한 낮은 VRAM 사용량을 가진 LLM을 찾는 것이 중요합니다.”
대부분의 LLM 벤치마크는 MMLU, HumanEval, HellaSwag와 같은 학술 지표로 모델을 평가합니다.
툴을 사용하는 AI 에이전트에 대해 진정 중요한 것은 *“올바른 도구를 호출했는가?”*가 아니라 “실제로 올바른 결과를 산출했는가?” 입니다.
우리 프로젝트 Androi는 웹 검색, 파이썬 실행, 파일 관리, 이메일, 캘린더 등 10개 이상의 도구를 사용하는 로컬 AI 에이전트입니다. 우리는 다양한 LLM을 동일한 에이전트에 연결하고 5개의 동일하고 복잡한 실제 시나리오를 실행했으며, 각 결과의 정확성을 기준으로 점수를 매겼습니다.
테스트 환경
| 구성 요소 | 사양 |
|---|---|
| 서버 | Ubuntu VM (3.8 GB RAM, 20 GB SSD) |
| 런타임 | Ollama (local inference) |
| 프레임워크 | Androi Agent (Node.js + Python tool pipeline) |
| 검증 | Outcome‑Based Validation (v2) |
| 테스트 날짜 | 2026‑02‑28 |
5가지 실제 테스트 시나리오 (총 39개 체크)
각 테스트는 에이전트가 여러 도구를 순차적으로 연결하여 복잡하고 다단계 작업을 완료하도록 요구합니다.
U01. 🏦 글로벌 자산 리밸런싱 어드바이저 (9개 체크)
시나리오
사용자는 삼성전자 50주, 비트코인 0.1 BTC, 미화 $3,000, 금 1 oz를 보유하고 있습니다. 에이전트는 다음을 수행해야 합니다:
- 각 자산(삼성 주식, 비트코인, USD/KRW 환율, 금 가격)의 웹 검색을 통해 현재 가격을 확인합니다.
- 모든 가치를 KRW로 변환하고 포트폴리오 총 가치를 계산합니다.
- Python 실행으로 각 자산의 비중(%)을 계산합니다.
- 이상적인 배분(주식 40 %, 암호화폐 20 %, USD 20 %, 금 20 %)과 비교하여 리밸런싱을 권고합니다.
- 보고서를
/tmp/rebalance_report.txt에 저장합니다. - 다음 금요일 검토를 위해 캘린더 이벤트를 등록합니다.
- 보고서를 이메일(첨부 파일)로 전송합니다.
검증 체크
- 삼성 가격
- 비트코인 가격
- USD/KRW 환율
- 금 가격
- 포트폴리오 총액 계산
- 비중 분석
- 리밸런싱 권고
- 보고서 파일 저장
- 이메일 전송
필요한 도구
web_search × 4, run_python_code / calculate, write_file, create_event, send_email
U02. 📊 실시간 기술 트렌드 조사 및 보고 (8개 체크)
시나리오
- “AI semiconductor market forecast 2026” 검색 → 시장 규모 데이터 수집.
- “NVIDIA HBM market share 2026” 검색 → 경쟁 구도 파악.
- “Samsung HBM3E mass production” 검색 → 한국 산업 현황 확인.
- 수집된 데이터를 이용해 Python으로 마크다운 보고서 생성.
- 보고서를
/tmp/ai_semiconductor_report.md에 저장. - 트렌드 업데이트를 위한 주간 자동 작업을 등록.
- 보고서를 이메일로 전송.
검증 체크
- 시장 규모 언급
- NVIDIA 언급
- HBM 언급
- 삼성 트렌드 포함
- SK Hynix 트렌드 포함
- 보고서 저장
- 자동 작업 등록
- 이메일 전송
필요한 도구
web_search × 3, run_python_code, write_file, create_task, send_email
U03. 🖥️ 서버 상태 점검 + 자동 복구 + 알림 (7개 체크)
시나리오
df -h실행 → 디스크 사용량 확인.free -h실행 → 메모리 상태 확인.systemctl list-units --state=failed실행 → 실패한 서비스 목록 확인.- Python을 사용해
/var/log/syslog의 최근 50줄을 분석하여 ERROR/WARNING/CRITICAL 발생 빈도 파악. find명령으로 7일 이상 된 임시 파일 목록 생성.- 위험 수준 평가(High/Medium/Low)를 포함한 전체 보고서를 저장.
- 시간당 자동 점검 작업을 등록.
검증 체크
- 디스크 사용량 캡처
- 메모리 상태 캡처
- 서비스 상태 캡처
- 로그 분석 캡처
- 위험 수준 평가 제공
- 보고서 저장
- 자동 작업 등록
필요한 도구
run_command × 4, run_python_code, write_file, create_task
U04. 🌍 여행 플래너 (8개 체크)
시나리오
- “Jeju Island February weather” 검색 → 기온 및 날씨 조건 확인.
- “Jeju winter restaurant recommendations 2026” 검색 → 3개의 레스토랑 선정.
- “Jeju winter tourist attractions” 검색 → 3개의 관광지 선정.
- Python을 사용해 Day 1 / Day 2 일정표(09:00 – 21:00, 관광지와 레스토랑을 교대로 배치) 작성.
- 예산 계산: 식사 30 K KRW × 6 = 180 K, 숙박 150 K, 교통 50 K → 총 380 K KRW.
- 여행 계획을 파일에 저장.
- 출발 및 귀국을 위한 캘린더 이벤트 2개 등록.
- 계획을 이메일로 전송.
검증 체크
- 날씨 정보 포함
- 레스토랑 추천 포함
- 관광지 포함
- Day 1 / Day 2 구분 존재
- 일정표 생성
- 비용 계산 표시
- 캘린더 이벤트 생성
- 이메일 전송
필요한 도구
web_search × 3, run_python_code, calculate, write_file, create_event × 2, send_email
U05. 🧬 코드 분석 + 최적화 + 배포 (7개 체크)
시나리오
read_file→ 전체 소스 코드를 읽어들임.
코드.
2. Python 실행하여 라인 수, 함수 수, 클래스 수를 셉니다.
3. wc -l /root/xoul/tools/*.py 실행 → 전체 모듈 크기.
4. calculate를 사용하여 tool_registry.py가 전체 코드베이스에서 차지하는 비율을 계산합니다.
5. 분석 보고서를 /tmp/code_analysis.txt에 저장합니다.
6. 주요 결과를 메모리에 저장합니다 (recall/memorize).
7. 보고서를 이메일로 전송합니다.
검증 항목
- 라인 수 보고
- 함수 수 보고
- 전체 모듈 크기 보고
- 비율 계산
- 코드 구조 설명
- 보고서 저장
- 이메일 전송
필요한 도구
read_file, run_python_code, run_command, calculate, write_file, memorize, send_email
Validation Method: Outcome‑Based
Instead of checking “did it call the right tool?”, we verify “does the output contain the correct information?”
100% = 🏆 PERFECT — All validation checks passed
≥70% = ✅ GOOD — Most critical outcomes achieved
≥50% = ⚠️ PARTIAL — More than half achieved
**Observation:** For agent tasks, tool‑use capability and instruction following matter more than raw parameter count.
Personally, I think full‑weight models perform better than MoE models for tasks like the toolchains required for Agents. (Unverified)
2. Quantization Affects Agent Quality
- Comparing Qwen3‑8B Q8 vs Qwen3‑8B Q4: the Q4 variant exhibited tool‑call repetition loops, repeating
df -h && free -hsix times in U03. - This suggests that tool‑chaining stability is sensitive to quantization levels.
3. Speed vs. Accuracy Trade‑offs
| Model | 정확도 | 속도 |
|---|---|---|
| GPT‑oss‑20B | 95 % (가장 빠름) | 264 s – 명확한 승자 |
| Qwen3.5‑27B | 95 % (동률) | 1 101 s – 깊이가 중요할 때 |
| Qwen3‑8B Q8 | 92 % | 377 s – 파라미터당 최고의 성능, 리소스가 제한된 환경에 이상적 |
4. “Chain Completion” Is the Key Differentiator
- 대부분의 모델은 중간 단계(검색, 분석)를 잘 처리합니다.
- 실제 차별화는 체인의 마지막 단계—이메일 전송, 파일 저장, 자동 작업 등록—에서 나타납니다.
- Qwen3.5‑35B‑A3B는 이러한 최종 단계에서 특히 약했습니다.
결론
로컬 AI 에이전트를 위한 LLM을 선택할 때는 벤치마크 점수뿐만 아니라 툴‑체인 완성률, 지시 준수도, 응답 속도를 함께 평가해야 합니다.
- 🏆 전체 최고 – GPT‑oss‑20B (속도 + 정확도 리더)
- 💰 가성비 최고 – Qwen3‑8B Q8 (8 B 파라미터만으로 92 %를 377 초에 달성)
- 🔬 가장 깊은 분석 – Qwen3.5‑27B (PERFECT 점수 최다 4개)
테스트 코드와 전체 결과는 아래에서 확인할 수 있습니다.