전문가들의 Mixtral

발행: 1개월 전 (2025년 12월 27일 오전 07:40 GMT+9)

3 분 소요

Source: Dev.to

Overview

Mixtral 8x7B는 많은 작은 전문가들에게 작업을 분산시켜 속도와 지능을 모두 달성하는 언어 모델입니다. 각 레이어에 8개의 피드‑포워드 블록이 포함된 Sparse Mixture of Experts 아키텍처를 사용하며, 라우터가 토큰당 두 명의 전문가를 선택합니다. 선택된 쌍은 각 단계마다 변경될 수 있습니다.

Architecture

Sparse Mixture of Experts: 각 토큰은 총 47 B 파라미터에 접근할 수 있지만, 추론 시에는 약 13 B 활성 파라미터만 사용되어 계산 비용을 줄입니다.
Routing: 작은 라우터가 토큰당 두 명의 전문가를 동적으로 선택하여 모델이 실시간으로 계산을 조정할 수 있게 합니다.

Training and Performance

매우 긴 컨텍스트를 위해 학습되었으며, 최대 32 k 토큰까지 처리합니다.
특히 수학, 코딩, 다국어 작업에서 벤치마크 상 더 큰 모델과 동등하거나 능가합니다.
지시‑튜닝된 버전은 인간 평가에서 여러 인기 챗 모델을 능가합니다.

베이스 버전과 지시‑튜닝 버전 모두 Apache 2.0 라이선스로 공개되어 커뮤니티가 자유롭게 실험할 수 있습니다.

전문가들의 Mixtral

Overview

Architecture

Training and Performance

Further Reading

관련 글

Prompt Engineering From First Principles: 그들이 가르쳐 주지 않는 메커니즘 파트-1

AI 분야에서 경력을 쌓기: 현장의 솔직한 이야기

새해 AI 서프라이즈: Fal이 Flux 2 이미지 생성기의 자체 버전을 출시, 비용은 10배 저렴하고 효율은 6배 향상

새로운 ChatGPT 앱 통합 사용 방법, DoorDash, Spotify, Uber 등 포함