Stability AI, 6분짜리 노래를 만들 수 있는 새로운 오디오 모델 출시
Source: TechCrunch
새로운 Stability Audio 3.0 모델
Stable Diffusion을 만든 Stability AI가 Stability Audio 3.0이라는 새로운 오디오 모델군을 출시합니다. 최고 모델은 6분 이상 길이의 전문가 수준 음악을 생성할 수 있다고 회사가 주장했습니다.
Stability Audio 3.0 이름 아래 네 가지 모델은 다음과 같습니다:
| 모델 | 파라미터 | 일반적인 사용 사례 |
|---|---|---|
| Small SFX | 459 M | 디바이스 내 사운드 생성, 최대 2 분 |
| Small | 459 M | 디바이스 내 음악 생성, 최대 2 분 |
| Medium | 1.4 B | 전체 작곡, 최대 6 분 20 초 |
| Large | 2.7 B | 전체 작곡, 최대 6 분 20 초 (API / 유료 서비스) |
Medium 및 Large 모델은 6분 20초 길이의 작곡에서도 음악 구조와 멜로디 톤을 유지할 수 있습니다—이는 2024년에 출시된 Stable Audio 2.0이 달성할 수 있던 길이의 두 배 이상입니다.
Stability AI는 small SFX, small, medium 모델을 누구나 사용하고 수정할 수 있도록 오픈 가중치 형태로 제공하고 있습니다. 2024년에 회사는 Stable Audio Open을 출시했으며, 이는 최대 47초 길이의 음악 생성이 가능했습니다. 새로운 모델군은 이전 오픈 버전보다 크게 향상되었습니다.

이미지 출처: Stability AI
이용 가능 여부 및 라이선스
- Large 모델은 API 및 자체 호스팅 유료 서비스를 통해서만 접근할 수 있습니다.
- 연 매출이 $1 million을 초과하는 기업은 엔터프라이즈 라이선스를 취득해야 합니다.
산업 상황
다음과 같은 여러 기업이 음악 생성 모델 및 툴을 출시하고 있습니다:
Suno와 Udio와 같은 기업 간 진행 중인 법적 분쟁은 학습 데이터 라이선스와 음악 레이블과의 파트너십이 장기적인 서비스 지속 가능성에 핵심이 될 수 있음을 강조합니다.
파트너십 및 향후 계획
지난해 Stability AI는 다음과 같은 계약을 체결했습니다:
회사는 최신 오디오 모델이 완전하게 라이선스된 데이터를 기반으로 구축되었다고 밝혔습니다. Stability AI는 전문 뮤지션을 위한 새로운 제품군을 개발 중이지만, 구체적인 내용은 아직 공개되지 않았습니다. 전 Universal Audio와 Fender의 최고 디지털 책임자였던 Ethan Kaplan이 Stability의 전문 음악 서비스 담당으로 합류했습니다.
AI 음악 분야 채용 동향
AI 기업들은 음악 산업 임원을 영입해 신뢰성을 강화하고 있습니다:
- Suno는 전 **Merlin CEO Jeremy Sirota**를 최고 상업 책임자로 영입했습니다.
- ElevenLabs는 인디 출판사 Kobalt 출신 Derek Cournoyer를 음악 사업 전략 담당 리더로 임명했습니다.