Hermes, NVIDIA RTX PC와 DGX Spark 기반 자체 개선 AI 에이전트 공개
출처: NVIDIA AI Blog
에이전트형 AI는 사용자가 작업을 수행하는 방식을 바꾸고 있습니다. OpenClaw의 성공에 이어, 커뮤니티는 새로운 오픈소스 에이전트 프레임워크를 받아들이고 있습니다. 최신 프레임워크는 Hermes Agent(GitHub)이며, 출시 3개월 만에 140,000개의 GitHub 스타를 돌파했고, 지난주 기준으로 OpenRouter에서 전 세계에서 가장 많이 사용되는 에이전트라고 발표되었습니다.
Nous Research가 개발한 Hermes는 신뢰성과 자기 개선을 목표로 설계되었습니다—이는 과거 에이전트에서 달성하기 어려웠던 두 가지 특성입니다. 설계상 제공자와 모델에 구애받지 않으며, 항상 켜져 있는 로컬 사용에 최적화되어 있어 NVIDIA RTX PC, NVIDIA RTX PRO 워크스테이션, NVIDIA DGX Spark이 풀 스피드로 24시간 구동하기에 이상적인 하드웨어가 됩니다.
Alibaba의 고성능 오픈‑웨이트 대규모 언어 모델(LLM) 시리즈인 Qwen 3.6은 Hermes와 같은 로컬 에이전트를 실행하기에 최적입니다. Qwen 3.6 27B와 35B 파라미터 모델은 이전 세대인 120B·400B 파라미터 모델보다 성능이 뛰어나며, NVIDIA RTX와 DGX Spark에서 가속된 에이전트형 AI를 구동할 수 있습니다.
Hermes: 로컬 AI 에이전트 기능 가속
다른 인기 에이전트와 마찬가지로 Hermes는 메신저 앱과 통합되고, 로컬 파일 및 애플리케이션에 접근하며, 24/7으로 동작합니다. 다음 네 가지 핵심 기능이 Hermes를 돋보이게 합니다:
- 자기 진화 스킬 – Hermes는 스스로 스킬을 작성하고 다듬습니다. 복잡한 작업을 마주하거나 피드백을 받을 때마다 학습 내용을 스킬로 저장해 시간이 지날수록 적응하고 개선합니다.
- 격리된 서브‑에이전트 – Hermes는 서브‑에이전트를 단기 생존, 격리된 작업자처럼 취급합니다. 각 서브‑에이전트는 특정 컨텍스트와 도구 세트를 갖고 있어 작업 조직을 깔끔하게 유지하고 혼란을 최소화합니다. 또한 작은 컨텍스트 윈도우로도 동작할 수 있어 로컬 모델에 최적화됩니다.
- 설계 단계부터 신뢰성 – Nous Research는 Hermes에 포함되는 모든 스킬, 도구, 플러그인을 직접 선별하고 스트레스 테스트합니다. 그 결과, 30 억 파라미터 급 로컬 모델에서도 별도의 디버깅 없이 바로 작동합니다.
- 동일 모델, 더 나은 결과 – 동일한 모델을 사용한 개발자 비교 실험에서 Hermes가 일관되게 더 강력한 결과를 보여줍니다. 차이는 프레임워크에 있습니다: Hermes는 얇은 래퍼가 아니라 활성 오케스트레이션 레이어이며, 작업별 실행이 아닌 지속적인 온‑디바이스 에이전트를 제공합니다.
Hermes 에이전트와 기반 LLM 모두 로컬에서 실행되도록 설계되었으므로, 하드웨어 품질이 사용자 경험을 직접 좌우합니다. NVIDIA RTX GPU는 이러한 워크로드에 특화되어 있습니다.
Qwen 3.6: 데이터센터 수준의 지능을 로컬에서
최신 Qwen 3.6 모델은 호평받은 Qwen 3.5 시리즈를 기반으로 로컬 AI 에이전트를 위한 또 다른 도약을 이룹니다. 새로운 Qwen 3.6 35B 모델은 약 20 GB 메모리만 사용하면서도 120 억 파라미터 모델(70 GB 이상 필요)을 능가합니다.
또한 Qwen 3.6 27B는 더 많은 활성 파라미터를 가진 밀집 모델로, Qwen 3.5 397B와 같은 400 억 파라미터 모델의 정확도에 버금가면서도 크기는 1/16에 불과합니다. 고성능 RTX GPU에서 실행하면 빠른 경험을 위한 충분한 연산력을 제공합니다.
이 모델들은 Hermes와 같은 로컬 에이전트에 최적이며, NVIDIA GPU와 DGX Spark이 가장 빠른 실행 환경을 제공합니다. NVIDIA Tensor Cores는 AI 추론을 가속해 처리량을 높이고 지연 시간을 낮추며, Hermes가 다단계 작업을 수행하거나 스킬을 몇 초 안에 다듬을 수 있게 합니다.
DGX Spark: 언제나 켜져 있는 에이전트 컴퓨터
Hermes와 같은 에이전트는 지속적으로 실행되도록 설계되었습니다—요청에 응답하고, 다단계 작업을 계획하며, 자율적으로 실행하고, 스스로 개선합니다. NVIDIA DGX Spark은 이러한 워크플로에 최적화된 컴팩트하고 효율적인 독립형 머신입니다.
- 128 GB 통합 메모리
- 1 페타플롭 AI 성능, 120 억 파라미터 Mixture‑of‑Experts 모델을 하루 종일 구동 가능
- 새로운 Qwen 3.6 35B 모델은 더 작은 발자국으로 동등한 지능을 제공, 속도가 빠르고 동시 작업도 가능
성능과 사용 편의성을 극대화하려면 Hermes DGX Spark 플레이북을 참고하세요. 또한 NVIDIA “Build It Yourself” 에이전트형 AI 시리즈의 핸즈‑온 세션에 등록하여 NemoClaw와 OpenShell을 활용한 자율 AI 에이전트 구축 방법을 배울 수 있습니다.
NVIDIA DGX Spark은 NVIDIA 제조 파트너를 통해 주문할 수 있습니다—마켓플레이스 방문.
NVIDIA 하드웨어에서 Hermes 시작하기
NVIDIA 하드웨어에서 Hermes를 로컬로 실행하는 과정은 간단합니다:
- Hermes GitHub 저장소에서 시작하세요.
- 원하는 로컬 모델 및 런타임과 페어링합니다.
- llama.cpp, LM Studio, Ollama 중 하나를 사용해 Qwen 3.6과 함께 Hermes를 실행합니다.
Hermes Agent는 LM Studio와 Ollama 지원을 기본 제공하므로 가장 손쉬운 로컬 에이전트 구축 경로를 제공합니다.
개인 에이전트를 탐구하는 로컬 AI 매니아든, 워크플로용 툴을 개발하는 개발자든, NVIDIA 하드웨어 위의 Hermes는 독보적으로 강력하고 신뢰할 수 있는 기반을 제공합니다.
RTX AI Garage의 최신 오픈 모델 및 NVIDIA RTX 하드웨어에 최적화된 에이전트 소식을 기대해 주세요.
#ICYMI: RTX AI Garage 최신 소식
- ✨ NVIDIA RTX PRO GPU는 Qwen 3.6 모델을 llama.cpp와 함께 실행할 때 토큰 생성 속도를 최대 3배 빠르게 하여 로컬 AI 에이전트의 실시간 응답성을 제공합니다.
- Google Gemma 4 26B·31B 모델이 NVFP4 체크포인트 형태로 제공되어 NVIDIA Blackwell GPU에서 더욱 빠른 성능을 발휘합니다. Google의 새로운 Multi‑Token Prediction 드래프터와 결합하면 동일한 출력 품질에서 최대 3배 빠른 추론이 가능합니다.
- Mistral Medium version 3.5(4월 출시)는 llama.cpp와 Ollama와의 호환성을 업데이트했으며, NVIDIA RTX PRO 및 DGX Spark 시스템에서 사용할 수 있습니다.
- 🦞 NVIDIA NemoClaw은 OpenClaw 경험을 NVIDIA 디바이스에 최적화한 오픈소스 스택으로, 이제 Windows Subsystem for Linux(WSL2)를 지원합니다. DGX Spark에서 NemoClaw를 시작하려면 이 단계별 플레이북을 참고하세요.
다음 채널에서 NVIDIA AI PC를 팔로우하세요: Facebook, Instagram, TikTok, X — 그리고 RTX AI PC 뉴스레터 구독으로 최신 정보를 받아보세요.
다음에서도 NVIDIA Workstation을 팔로우하세요: LinkedIn, X.
소프트웨어 제품 정보에 관한 공지사항 을 확인하시기 바랍니다.