Local LLM Agent Benchmark: 실제 시나리오에서 6개 모델 비교

발행: (2026년 2월 28일 오후 04:01 GMT+9)
10 분 소요
원문: Dev.to

Source: Dev.to

실제 결과 정확성을 기준으로 AI 에이전트 성능 측정, 도구 호출 존재 여부만이 아니라

왜 우리는 이 벤치마크를 만들었는가

“일반 사용자가 접근하기 쉽도록 만들려면 가능한 한 낮은 VRAM 사용량을 가진 LLM을 찾는 것이 중요합니다.”

대부분의 LLM 벤치마크는 MMLU, HumanEval, HellaSwag와 같은 학술 지표로 모델을 평가합니다.
툴을 사용하는 AI 에이전트에 대해 진정 중요한 것은 *“올바른 도구를 호출했는가?”*가 아니라 “실제로 올바른 결과를 산출했는가?” 입니다.

우리 프로젝트 Androi는 웹 검색, 파이썬 실행, 파일 관리, 이메일, 캘린더 등 10개 이상의 도구를 사용하는 로컬 AI 에이전트입니다. 우리는 다양한 LLM을 동일한 에이전트에 연결하고 5개의 동일하고 복잡한 실제 시나리오를 실행했으며, 각 결과의 정확성을 기준으로 점수를 매겼습니다.

테스트 환경

구성 요소사양
서버Ubuntu VM (3.8 GB RAM, 20 GB SSD)
런타임Ollama (local inference)
프레임워크Androi Agent (Node.js + Python tool pipeline)
검증Outcome‑Based Validation (v2)
테스트 날짜2026‑02‑28

5가지 실제 테스트 시나리오 (총 39개 체크)

각 테스트는 에이전트가 여러 도구를 순차적으로 연결하여 복잡하고 다단계 작업을 완료하도록 요구합니다.

U01. 🏦 글로벌 자산 리밸런싱 어드바이저 (9개 체크)

시나리오
사용자는 삼성전자 50주, 비트코인 0.1 BTC, 미화 $3,000, 금 1 oz를 보유하고 있습니다. 에이전트는 다음을 수행해야 합니다:

  1. 각 자산(삼성 주식, 비트코인, USD/KRW 환율, 금 가격)의 웹 검색을 통해 현재 가격을 확인합니다.
  2. 모든 가치를 KRW로 변환하고 포트폴리오 총 가치를 계산합니다.
  3. Python 실행으로 각 자산의 비중(%)을 계산합니다.
  4. 이상적인 배분(주식 40 %, 암호화폐 20 %, USD 20 %, 금 20 %)과 비교하여 리밸런싱을 권고합니다.
  5. 보고서를 /tmp/rebalance_report.txt저장합니다.
  6. 다음 금요일 검토를 위해 캘린더 이벤트를 등록합니다.
  7. 보고서를 이메일(첨부 파일)로 전송합니다.

검증 체크

  • 삼성 가격
  • 비트코인 가격
  • USD/KRW 환율
  • 금 가격
  • 포트폴리오 총액 계산
  • 비중 분석
  • 리밸런싱 권고
  • 보고서 파일 저장
  • 이메일 전송

필요한 도구
web_search × 4, run_python_code / calculate, write_file, create_event, send_email

U02. 📊 실시간 기술 트렌드 조사 및 보고 (8개 체크)

시나리오

  1. “AI semiconductor market forecast 2026” 검색 → 시장 규모 데이터 수집.
  2. “NVIDIA HBM market share 2026” 검색 → 경쟁 구도 파악.
  3. “Samsung HBM3E mass production” 검색 → 한국 산업 현황 확인.
  4. 수집된 데이터를 이용해 Python으로 마크다운 보고서 생성.
  5. 보고서를 /tmp/ai_semiconductor_report.md저장.
  6. 트렌드 업데이트를 위한 주간 자동 작업을 등록.
  7. 보고서를 이메일로 전송.

검증 체크

  • 시장 규모 언급
  • NVIDIA 언급
  • HBM 언급
  • 삼성 트렌드 포함
  • SK Hynix 트렌드 포함
  • 보고서 저장
  • 자동 작업 등록
  • 이메일 전송

필요한 도구
web_search × 3, run_python_code, write_file, create_task, send_email

U03. 🖥️ 서버 상태 점검 + 자동 복구 + 알림 (7개 체크)

시나리오

  1. df -h 실행 → 디스크 사용량 확인.
  2. free -h 실행 → 메모리 상태 확인.
  3. systemctl list-units --state=failed 실행 → 실패한 서비스 목록 확인.
  4. Python을 사용해 /var/log/syslog의 최근 50줄을 분석하여 ERROR/WARNING/CRITICAL 발생 빈도 파악.
  5. find 명령으로 7일 이상 된 임시 파일 목록 생성.
  6. 위험 수준 평가(High/Medium/Low)를 포함한 전체 보고서를 저장.
  7. 시간당 자동 점검 작업을 등록.

검증 체크

  • 디스크 사용량 캡처
  • 메모리 상태 캡처
  • 서비스 상태 캡처
  • 로그 분석 캡처
  • 위험 수준 평가 제공
  • 보고서 저장
  • 자동 작업 등록

필요한 도구
run_command × 4, run_python_code, write_file, create_task

U04. 🌍 여행 플래너 (8개 체크)

시나리오

  1. “Jeju Island February weather” 검색 → 기온 및 날씨 조건 확인.
  2. “Jeju winter restaurant recommendations 2026” 검색 → 3개의 레스토랑 선정.
  3. “Jeju winter tourist attractions” 검색 → 3개의 관광지 선정.
  4. Python을 사용해 Day 1 / Day 2 일정표(09:00 – 21:00, 관광지와 레스토랑을 교대로 배치) 작성.
  5. 예산 계산: 식사 30 K KRW × 6 = 180 K, 숙박 150 K, 교통 50 K → 총 380 K KRW.
  6. 여행 계획을 파일에 저장.
  7. 출발 및 귀국을 위한 캘린더 이벤트 2개 등록.
  8. 계획을 이메일로 전송.

검증 체크

  • 날씨 정보 포함
  • 레스토랑 추천 포함
  • 관광지 포함
  • Day 1 / Day 2 구분 존재
  • 일정표 생성
  • 비용 계산 표시
  • 캘린더 이벤트 생성
  • 이메일 전송

필요한 도구
web_search × 3, run_python_code, calculate, write_file, create_event × 2, send_email

U05. 🧬 코드 분석 + 최적화 + 배포 (7개 체크)

시나리오

  1. read_file → 전체 소스 코드를 읽어들임.

코드.
2. Python 실행하여 라인 수, 함수 수, 클래스 수를 셉니다.
3. wc -l /root/xoul/tools/*.py 실행 → 전체 모듈 크기.
4. calculate를 사용하여 tool_registry.py가 전체 코드베이스에서 차지하는 비율을 계산합니다.
5. 분석 보고서/tmp/code_analysis.txt저장합니다.
6. 주요 결과를 메모리에 저장합니다 (recall/memorize).
7. 보고서를 이메일로 전송합니다.

검증 항목

  • 라인 수 보고
  • 함수 수 보고
  • 전체 모듈 크기 보고
  • 비율 계산
  • 코드 구조 설명
  • 보고서 저장
  • 이메일 전송

필요한 도구
read_file, run_python_code, run_command, calculate, write_file, memorize, send_email

Validation Method: Outcome‑Based

Instead of checking “did it call the right tool?”, we verify “does the output contain the correct information?”

100% = 🏆 PERFECT — All validation checks passed
≥70% = ✅ GOOD    — Most critical outcomes achieved
≥50% = ⚠️ PARTIAL — More than half achieved
**Observation:** For agent tasks, tool‑use capability and instruction following matter more than raw parameter count.

Personally, I think full‑weight models perform better than MoE models for tasks like the toolchains required for Agents. (Unverified)

2. Quantization Affects Agent Quality

  • Comparing Qwen3‑8B Q8 vs Qwen3‑8B Q4: the Q4 variant exhibited tool‑call repetition loops, repeating df -h && free -h six times in U03.
  • This suggests that tool‑chaining stability is sensitive to quantization levels.

3. Speed vs. Accuracy Trade‑offs

Model정확도속도
GPT‑oss‑20B95 % (가장 빠름)264 s – 명확한 승자
Qwen3.5‑27B95 % (동률)1 101 s – 깊이가 중요할 때
Qwen3‑8B Q892 %377 s – 파라미터당 최고의 성능, 리소스가 제한된 환경에 이상적

4. “Chain Completion” Is the Key Differentiator

  • 대부분의 모델은 중간 단계(검색, 분석)를 잘 처리합니다.
  • 실제 차별화는 체인의 마지막 단계—이메일 전송, 파일 저장, 자동 작업 등록—에서 나타납니다.
  • Qwen3.5‑35B‑A3B는 이러한 최종 단계에서 특히 약했습니다.

결론

로컬 AI 에이전트를 위한 LLM을 선택할 때는 벤치마크 점수뿐만 아니라 툴‑체인 완성률, 지시 준수도, 응답 속도를 함께 평가해야 합니다.

  • 🏆 전체 최고GPT‑oss‑20B (속도 + 정확도 리더)
  • 💰 가성비 최고Qwen3‑8B Q8 (8 B 파라미터만으로 92 %를 377 초에 달성)
  • 🔬 가장 깊은 분석Qwen3.5‑27B (PERFECT 점수 최다 4개)

테스트 코드와 전체 결과는 아래에서 확인할 수 있습니다.

0 조회
Back to Blog

관련 글

더 보기 »

일이 정신 건강 위험이 될 때

markdown !Ravi Mishrahttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fu...