z.ai의 오픈소스 GLM-5가 사상 최저 환각률을 달성하고 새로운 RL 'slime' 기법을 활용
I’m ready to translate the article for you, but I’ll need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have it, I’ll translate it into Korean while preserving all formatting, markdown, and technical terms as requested.
중국 AI 스타트업 Zhupai (z.ai) Announces GLM‑5
GLM‑5는 Zhupai의 GLM 시리즈 최신 대형 언어 모델(LLM)입니다. MIT 오픈‑소스 라이선스로 제공되어 기업 배포에 적합합니다. 주요 성과는 다음과 같습니다:
- 독립적인 Artificial Analysis Intelligence Index v4.0에서 기록적인 낮은 환각 비율 (AA‑Omniscience Index 점수: ‑1, GLM‑4.5 대비 35점 향상).
- 업계 최고 수준의 지식 신뢰성 – 모델이 조작하기보다 거절을 선택하는 경향이 있어 Google, OpenAI, Anthropic 등 미국 경쟁사보다 우수합니다.
- **네이티브 “Agent Mode”**는 원시 프롬프트나 원본 자료를 직접 전문 사무 문서(
.docx,.pdf,.xlsx)로 변환합니다.
Pricing
- 입력 토큰: ~ $0.80 / 1 M 토큰
- 출력 토큰: ~ $2.56 / 1 M 토큰
이는 Claude Opus 4.6과 같은 독점 경쟁 제품보다 대략 6× 저렴합니다.
기술: 에이전트 효율성을 위한 확장
| 특징 | 세부 정보 |
|---|---|
| Parameters | 744 B 전체 (GLM‑4.5의 355 B에서 증가)이며, Mixture‑of‑Experts (MoE) 아키텍처를 통해 토큰당 40 B가 활성화됩니다 |
| Pre‑training data | 28.5 T 토큰 |
| Context length | 200 K 토큰 (DeepSeek Sparse Attention 덕분에 가능) |
| Training infrastructure | “Slime” – 비동기 강화학습(RL) 시스템으로 락스텝 병목을 해소합니다. Active Partial Rollouts (APRIL)를 포함해 RL 훈련 시간을 단축합니다. |
| System architecture | 1. Training module – Megatron‑LM 기반 2. Rollout module – SGLang와 고처리량 데이터 생성을 위한 맞춤 라우터 사용 3. Data Buffer – 프롬프트 초기화와 롤아웃 저장을 관리 |
| Agentic capabilities | 적응형 검증 가능한 환경, 다중 턴 컴파일 피드백 루프, 장기 작업을 위한 고처리량 생성 |
엔드‑투‑엔드 지식 작업
GLM‑5는 AGI 시대를 위한 “오피스” 도구로 자리매김하고 있습니다:
- 문서 생성: 프롬프트를 즉시 사용할 수 있는
.docx,.pdf,.xlsx파일로 변환합니다 (예: 재무 보고서, 후원 제안서, 복잡한 스프레드시트). - 에이전트 엔지니어링: 인간이 품질 게이트를 정의하면 모델이 실행을 담당하고, 고수준 목표를 실행 가능한 하위 작업으로 분해합니다.
벤치마크 성능
| Benchmark | GLM‑5 점수 | 경쟁 모델 |
|---|---|---|
| SWE‑bench Verified | 77.8 | Gemini 3 Pro (76.2) |
| Vending Bench 2 (비즈니스 시뮬레이션) | $4,432.12 (최종 잔액) | #1 among open‑source models |
| AA‑Omniscience Index | ‑1 | GLM‑4.5 대비 35점 개선 |
Artificial Analysis에 따르면, GLM‑5는 이제 전 세계에서 가장 강력한 오픈소스 모델이며, 두 주 전에 출시된 Moonshot의 Kimi K2.5를 능가합니다.
비용 비교
| 모델 | 입력 (1 M 토큰당) | 출력 (1 M 토큰당) | 총합 (1 M 입력 + 1 M 출력) | 출처 |
|---|---|---|---|---|
| Qwen 3 Turbo | $0.05 | $0.20 | $0.25 | Alibaba Cloud |
| Grok 4.1 Fast (reasoning) | $0.20 | $0.50 | $0.70 | xAI |
| Grok 4.1 Fast (non‑reasoning) | $0.20 | $0.50 | $0.70 | xAI |
| deepseek‑chat (V3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| deepseek‑reasoner (V3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $3.50 | |
| Kimi‑k2.5 | $0.60 | $3.00 | $3.60 | Moonshot |
| GLM‑5 | $1.00 | $3.20 | $4.20 | Z.ai |
| ERNIE 5.0 | $0.85 | $3.40 | $4.25 | Qianfan |
| Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 | Anthropic |
| Qwen3‑Max (2026‑01‑23) | $1.20 | $6.00 | $7.20 | Alibaba Cloud |
| Gemini 3 Pro (≤200K) | $2.00 | $12.00 | $14.00 | |
| GPT‑5.2 | $1.75 | $14.00 | $15.75 | OpenAI |
| Claude Sonnet 4.5 | $3.00 | $15.00 | $18.00 | Anthropic |
| Gemini 3 Pro (>200K) | $4.00 | $18.00 | $22.00 | |
| Claude Opus 4.6 | $5.00 | $25.00 | $30.00 | Anthropic |
| GPT‑5.2 Pro | $21.00 | $168.00 | $189.00 | OpenAI |
GLM‑5의 입력 비용은 Claude Opus 4.6보다 약 6배 저렴하고, 출력 비용은 약 10배 저렴합니다.
추가 참고 사항
- OpenRouter (Feb 11 2026) 에서의 출시가 Zhipu AI(주식회사 Zhupai의 모회사)가 이전에 플랫폼에서 코딩 벤치마크를 장악했던 스텔스 모델 “Pony Alpha” 뒤에 있었다는 소문을 확인한다.
- 공격적인 가격에도 불구하고 GLM‑5는 최고 수준의 벤치마크 성능을 제공하여 고품질이면서 비용 효율적인 LLM 기능을 찾는 기업에게 “가성비 최고”로 자리매김한다.
벤치마크와 저비용
모든 초기 사용자가 모델에 열광하는 것은 아니며, 높은 성능이 전체 이야기를 말해주지는 않는다고 지적한다.
Lukas Petersson, safety‑focused autonomous AI protocol 스타트업 Andon Labs의 공동 창업자는 X에서 다음과 같이 언급했습니다:
“GLM‑5 트레이스를 몇 시간 동안 읽어본 결과: 믿을 수 없을 정도로 효과적인 모델이지만 상황 인식은 훨씬 부족합니다. 공격적인 전술로 목표를 달성하지만 상황을 논리적으로 사고하거나 경험을 활용하지 못합니다. 이것은 무섭습니다. 바로 이런 식으로 종이클립 극대화자가 탄생합니다.”
paperclip maximizer는 옥스퍼드 철학자 Nick Bostrom(2003)이 제시한 가설적 시나리오를 가리키며, AI가 겉보기에 무해한 목표—예를 들어 종이클립 생산을 최대화하는 것—를 극단적으로 추구하여 재앙적인 결과를 초래할 수 있는 상황을 말한다.
Source: …
기업이 GLM‑5를 도입해야 할까?
전략적 장점
- 오픈‑소스 라이선스 – 오픈 가중치를 포함한 MIT 라이선스로, 조직이 자체적으로 최첨단 인텔리전스를 호스팅할 수 있습니다.
- 벤더 종속성 완화 – 폐쇄형 경쟁사와 달리 배포와 커스터마이징을 완전하게 제어할 수 있습니다.
실질적 제약
- 하드웨어 요구사항 – 744 B 파라미터는 상당한 GPU 자원을 필요로 하며, 이는 소규모 기업에게는 부담이 될 수 있습니다.
- 지정학적 고려사항 – 규제 산업에 속한 기업은 중국 기반 모델을 도입할 때 데이터 거주지 및 출처 위험을 평가해야 합니다.
거버넌스 위험
- 자율 AI 에이전트는 새로운 거버넌스 과제를 제시합니다.
- 모델이 “채팅”에서 “업무”로 전환됨에 따라 애플리케이션과 파일을 자율적으로 오가며 작동합니다.
- 에이전트‑전용 권한 및 인간‑인‑루프 품질 게이트가 견고하지 않으면 자율 오류 위험이 급격히 상승합니다.
이상적인 활용 사례
- 단순 코파일럿을 넘어 진정한 자율 사무실을 구축하려는 조직.
- 레거시 백엔드를 리팩터링하거나 지속적으로 실행되는 “셀프‑힐링” 파이프라인을 만들고자 하는 엔지니어.
서구 연구소들이 **“사고”**와 추론 깊이를 최적화하는 동안, Zai는 실행 및 규모에 초점을 맞추고 있습니다.
요약
오늘 GLM‑5를 도입하는 기업들은 단순히 더 저렴한 모델을 구매하는 것이 아니라, 가장 가치 있는 AI는 두 번 묻지 않아도 프로젝트를 완수할 수 있는 미래에 베팅하고 있습니다.