Magenta RealTime 2: 오픈·로컬 실시간 음악 모델

발행: 5일 전 (2026년 6월 5일 PM 01:09 GMT+9)

10 분 소요

출처: Hacker News

2026년 6월 4일

우리는 Magenta RealTime 2 (MRT2), 최첨단 오픈 모델이자 효율적인 실시간 추론 엔진을 공개하게 되어 기쁩니다. 이제 노트북에서 AI 음악 악기를 만들고 연주할 수 있습니다!

시작하려면 앱을 다운로드하세요 (Apple Silicon이 필요합니다).

다른 대규모 생성 음악 모델이 프롬프트를 받아 오프라인에서 트랙을 만드는 것과 달리, MRT2는 MIDI, 오디오, 텍스트로 제어할 수 있는 실시간 인터랙티브 모델입니다. 저지연 온‑디바이스 추론을 수행해 입력에 즉시 반응합니다. 독립 실행형 앱으로 실행하거나 DAW에 삽입하거나 다른 음악 소프트웨어에 통합할 수 있습니다.

오픈‑웨이트 모델 외에도, 우리는 MRT2로 만든 연주 가능한 악기와 경험 모음도 공개합니다. 사운드 클론, 스타일 블렌딩, 실시간 반주 등을 저지연 음악 모델로 실험해 보세요.

실시간 음악 모델을 악기로 활용할 가능성을 탐구하기 위해 오늘 다음을 공개합니다:

Magenta RealTime 2, 오픈‑웨이트 모델 (24억 파라미터)로, MIDI, 텍스트, 오디오를 통한 저지연 실시간 제어가 가능한 고품질 실시간 음악 합성.
오픈 소스 파이썬 라이브러리 (pip install magenta-rt)는 JAX/MLX와 SequenceLayers를 사용한 추론을 제공합니다.
C++로 작성된 추론 엔진으로, MLX를 통해 MacBook GPU에서 효율적인 스트리밍 오디오 생성을 지원합니다.
추론 엔진 위에 구축된 예제 애플리케이션 모음으로, MRT2의 창의적 가능성을 보여주고 새로운 악기 및 소프트웨어 통합을 위한 레퍼런스로 활용됩니다.

모델, 추론 엔진, 앱 다이어그램

지난 10년간 Magenta 팀은 AI를 음악가를 위한 도구로서, 대체물이 아니라 보조 수단으로 만드는 비전을 추진해 왔습니다. 2017년에 첫 신경 합성기인 NSynth를 출시했으며, 이를 플레이어블 하드웨어에 적용했습니다. 이후 AI 악기로는 DDSP, Piano Genie, 그리고 다양한 음악 스타일을 생성·블렌딩할 수 있는 최초 실시간 음악 모델인 Magenta RealTime 등이 있습니다. MRT2는 버전 1에 비해 약 15배 낮은 지연 시간을 구현했으며, 일반 하드웨어에서 동작하고 DAW에 직접 통합돼 진정한 실시간 악기로서 활용됩니다.

낮은 지연 시간과 확장된 제어를 갖춘 실시간 음악 모델

기능	Magenta RealTime	Magenta RealTime 2
실시간 음악 생성	✅	✅
필요 하드웨어	TPU / GPU	MacBook (Apple Silicon)
프레임 크기	2 초	40 ms
제어 지연 시간	~3 초	~200 ms
제어 방식	텍스트, 오디오	텍스트, 오디오, MIDI
모델 크기	760 M / 220 M	2.4 B / 230 M

MRT와 MRT2는 모두 코덱 언어 모델이며, SpectroStream 코덱에서 생성된 오디오 토큰 시퀀스를 다룹니다. MRT2는 프레임‑레벨 자동회귀와 프레임‑정렬 조건화를 사용해 지연 시간을 낮춥니다. 표현력 있는 음악 제어를 위해 MRT2는 MIDI 입력을 지속적으로 따라가면서, 스타일 프롬프트(오디오 또는 텍스트)를 MusicCoCa로 임베딩합니다. 신호는 매 생성 단계마다 프레임‑정렬 조건으로 주입돼, 단일 프레임(40 ms) 내에 반응할 수 있습니다(실제 지연 원인은 아래 실제 제어 지연 섹션을 참고).

핵심은 인과적 슬라이딩‑윈도우 어텐션 메커니즘으로, 연속 스트리밍 생성을 가능하게 하면서 메모리 사용량을 제한합니다. 학습 가능한 어텐션 임베딩은 임의 길이의 시퀀스에 대한 일반화를 향상시키고, 장시간 컨텍스트 생성 시 발생할 수 있는 링잉·피드백 같은 컨텍스트‑제거 아티팩트를 완화합니다.

MLX 기반 고속 C++ 추론 엔진

추론 도구 및 흐름도

초기 Magenta RealTime은 고성능 GPU 또는 TPU가 필요했지만, MRT2는 음악가가 실제로 사용하는 하드웨어에서 실시간 생성을 가능하게 합니다. 우리는 MLX로 구동되는 C++ 추론 엔진을 구축했으며, Apple Silicon에서 네이티브로 실행됩니다. Apple의 MLX 프레임워크는 파이썬과 C++를 연결합니다. MRT2 모델은 SequenceLayers 라이브러리로 구현된 뒤 .mlxfn 파일(가중치와 계산 그래프 포함)로 컴파일됩니다. C++ 엔진은 이 파일을 로드하고 MLX 런타임을 이용해 Apple Silicon GPU에서 효율적으로 실행하며, 모델 상태, 오디오 버퍼링·리샘플링, MIDI 입력을 처리합니다.

MLX 덕분에 MRT2는 Apple Silicon(M‑시리즈) 장치에서 실행됩니다:

모델	플랫폼
Base (2.4 B)	MacBook M3 Pro 이상 MacBook M2 Max 이상
Small (230 M)	모든 Apple Silicon MacBook, 포함 MacBook Air

음악가와 개발자를 위한 예제 애플리케이션 모음

MRT2의 핵심 목표는 음악가가 기존 소프트웨어에 실시간 음악 모델을 통합하고, 개발자가 맞춤형 애플리케이션을 만들 수 있게 하는 것입니다. 우리의 코드베이스는 다양한 예제를 제공하며, 여기에는 독립 실행형 앱, 플러그인, 확장 기능이 포함됩니다.

앞으로의 계획

우리 팀은 거의 10년 동안 머신러닝 기반 악기를 개발해 왔습니다(예: NSynth). MRT2를 통해 AI 악기는 이제 음악 제작 도구가 기대하는 제어성과 즉시성을 갖추었지만, 탐구할 영역은 여전히 많습니다: 더 낮은 제어 지연, 잼 세션을 위한 오디오 스트리밍 입력, 풍부한 실시간 상호작용 등.

예정된 기능 및 애플리케이션:

파인튜닝 – 자체 데이터를 사용해 모델을 맞춤 학습.
예시 퍼포먼스 툴 – Manaswi Mishra와 함께 제작.

또한 곧 **보스턴 음악 기술 해커톤**에서 MRT2를 주제로 한 챌린지를 진행할 예정입니다. 최신 소식을 기대해 주세요!

인용

우리 작업을 인용할 때는 다음과 같이 해 주세요:

Magenta Team. “Magenta RealTime 2: Open & Local Live Music Models”. https://magenta.withgoogle.com/magenta-realtime-2. 2026년 6월

@article{mrt2,
  title  = {Magenta RealTime 2: Open & Local Live Music Models},
  author = {Magenta Team},
  year   = {2026},
  note   = {https://magenta.withgoogle.com/magenta-realtime-2}
}

부록: 기술 상세

저지연 스트리밍 생성

코덱 언어 모델링 배경. 코덱 언어 모델(LM)은 신경 오디오 코덱(인코더 + 디코더)에서 생성된 이산 토큰 시퀀스 위에서 동작합니다. 인코더는 원시 스테레오 오디오 (\mathbf{a} \in \mathbb{R}^{T f_s \times 2})를 토큰 행렬 (\mathbf{x} \in \mathbb{V}_c^{T f_k \times d_c})로 매핑합니다.

LM은 일반적으로 두 개의 트랜스포머를 이용한 계층적 자동회귀 프레임워크를 사용합니다: 히스토리를 고정 길이 임베딩으로 압축하는 Temporal 인코더와, 현재 프레임 임베딩에 조건화된 깊이별 토큰을 생성하는 Depth 디코더.

[ P_{\theta,\phi}(\mathbf{x}) =

Magenta RealTime 2: 오픈·로컬 실시간 음악 모델

낮은 지연 시간과 확장된 제어를 갖춘 실시간 음악 모델

MLX 기반 고속 C++ 추론 엔진

음악가와 개발자를 위한 예제 애플리케이션 모음

앞으로의 계획

인용

부록: 기술 상세

저지연 스트리밍 생성

관련 글

Show HN: Mach – 기여자를 찾는 컴파일 시스템 언어

Show HN: Command Center, 품질을 중시하는 사람들을 위한 AI 코딩 환경

OpenAI, SEC에 S‑1 초안 제출

나는 평행 인터넷을 만들고 있는데, 이름은 ‘더 씬너넷’이다.