스테이블 오디오 3

발행: 3주 전 (2026년 5월 21일 AM 12:10 GMT+9)

3 분 소요

Source: Hacker News

Abstract

Stable Audio 3은 가변 길이 오디오 생성 및 편집을 위한 빠른 잠재 확산 모델(소형, 중형, 대형) 패밀리입니다. 우리 모델은 몇 분 길이의 오디오를 생성할 수 있기 때문에, 짧은 사운드에 대해 전체 길이의 생성을 만드는 비용을 피하려면 가변 길이 생성이 핵심입니다. 또한 인페인팅을 지원하여 목표 지향적인 오디오 편집과 짧은 녹음의 연속을 가능하게 합니다. 우리의 잠재 확산 모델은 오디오를 압축된 잠재 공간으로 투사하는 새로운 의미‑음향 자동인코더 위에서 작동하여, 오디오 충실도를 유지하면서 효율적인 확산 기반 생성을 가능하게 하고 잠재 공간에 의미 구조를 장려합니다. 마지막으로, 우리는 적대적 사후 학습을 수행하여 추론을 가속화하고 생성 품질을 향상시킵니다. 이를 통해 추론 단계 수를 줄이면서 충실도와 프롬프트 준수를 개선합니다. Stable Audio 3 모델은 라이선스 및 Creative Commons 데이터로 학습되어 H200 GPU에서는 2 초 미만, MacBook Pro M4에서는 몇 초 이내에 음악 및 사운드를 생성합니다. 우리는 소비자 등급 하드웨어에서 실행할 수 있는 소형 및 중형 모델의 가중치와 학습·추론 파이프라인을 공개합니다.

Resources

View PDF
HTML (experimental)
Training code: GitHub
Inference and weights: GitHub

Subjects

Sound (cs.SD)
Artificial Intelligence (cs.AI)

Citation

arXiv: 2605.17991 (cs.SD)
DOI:

Submission history

v1 – Mon, 18 May 2026 07:47:03 UTC (67 KB) – submitted by Jordi Pons (view email)

스테이블 오디오 3

Abstract

Resources

Subjects

Citation

Submission history

관련 글

AI '파티에 난입' 올해 칸 영화제에서 - 다년간 Meta 파트너십 포함

AI 영상, 조악한 클립을 넘어선다

Vibe coding이 당신의 휴대폰에 찾아옵니다

노벨상 수상자 올가 토카르추크가 최신 소설을 쓰기 위해 AI를 사용한 것으로 보인다