스테이블 오디오 3

발행: (2026년 5월 21일 AM 12:10 GMT+9)
3 분 소요

Source: Hacker News

Abstract

Stable Audio 3은 가변 길이 오디오 생성 및 편집을 위한 빠른 잠재 확산 모델(소형, 중형, 대형) 패밀리입니다. 우리 모델은 몇 분 길이의 오디오를 생성할 수 있기 때문에, 짧은 사운드에 대해 전체 길이의 생성을 만드는 비용을 피하려면 가변 길이 생성이 핵심입니다. 또한 인페인팅을 지원하여 목표 지향적인 오디오 편집과 짧은 녹음의 연속을 가능하게 합니다. 우리의 잠재 확산 모델은 오디오를 압축된 잠재 공간으로 투사하는 새로운 의미‑음향 자동인코더 위에서 작동하여, 오디오 충실도를 유지하면서 효율적인 확산 기반 생성을 가능하게 하고 잠재 공간에 의미 구조를 장려합니다. 마지막으로, 우리는 적대적 사후 학습을 수행하여 추론을 가속화하고 생성 품질을 향상시킵니다. 이를 통해 추론 단계 수를 줄이면서 충실도와 프롬프트 준수를 개선합니다. Stable Audio 3 모델은 라이선스 및 Creative Commons 데이터로 학습되어 H200 GPU에서는 2 초 미만, MacBook Pro M4에서는 몇 초 이내에 음악 및 사운드를 생성합니다. 우리는 소비자 등급 하드웨어에서 실행할 수 있는 소형 및 중형 모델의 가중치와 학습·추론 파이프라인을 공개합니다.

Resources

Subjects

  • Sound (cs.SD)
  • Artificial Intelligence (cs.AI)

Citation

Submission history

  • v1 – Mon, 18 May 2026 07:47:03 UTC (67 KB) – submitted by Jordi Pons (view email)
0 조회
Back to Blog

관련 글

더 보기 »