Stability AI 开源 Stable Audio 3:从音效到音乐,最快不到 1 秒生成 20 秒立体声
Stability AI 开源 Stable Audio 3:从音效到音乐,最快不到 1 秒生成 20 秒立体声
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
Stability AI 正式发布并开源 Stable Audio 3,这是一个音频生成模型家族,涵盖音乐和音效两大场景。模型支持 44.1 kHz 立体声输出、可变长度生成和基于 inpainting 的音频编辑,推理速度极快——在 H200 上生成 20 秒音频仅需约 0.62 秒。
四个模型变体,覆盖不同需求
Stable Audio 3 包含四个模型:
- small-music:459M 参数,最长 2 分钟,仅音乐
- small-sfx:459M 参数,最长 2 分钟,仅音效
- medium:1.4B 参数,最长 6 分 20 秒,音乐 + 音效
- large:2.7B 参数,最长 6 分 20 秒,音乐 + 音效
其中 small 和 medium 模型权重已在 Hugging Face 开源,large 模型需企业授权。
核心技术:4096 倍压缩让长音频生成成为可能
Stable Audio 3 的关键创新是 SAME(Semantically-Aligned Music autoEncoder)自编码器。它将 44.1 kHz 立体声音频压缩为 256 维潜在表示,下采样比高达 4096 倍——远超此前主流方案的 1024~2048 倍。这意味着即使生成 6 分钟以上的音频,潜在序列长度也足够短,可以在消费级硬件上运行。
压缩分两步完成:先将立体声音频切分为 256 采样的 patch(256× 下采样),再通过 Transformer Resampling Block 进一步 16× 下采样。最终输出约 10.76 Hz 的潜在序列。
可变长度生成:按需付费,不浪费算力
以往的音频扩散模型通常以固定最大长度运行推理,即使只需要一段短音频也要跑满全长。Stable Audio 3 原生支持可变长度生成,推理成本与输出时长成正比。生成 20 秒音频约 0.62 秒,生成 380 秒音频约 1.31 秒(均在 H200 上测试)。
8 步推理:Ping-Pong 采样替代传统多步去噪
模型经过三阶段训练(流匹配 → 蒸馏预热 → 对抗后训练),最终只需 8 步推理即可生成高质量音频,无需 classifier-free guidance。推理采用 ping-pong 采样策略:模型先去噪到干净估计,再加入较低水平的噪声,然后再次去噪,如此反复 8 步。
Inpainting:不只是生成,还能编辑
Stable Audio 3 支持基于 inpainting 的音频编辑。通过二进制掩码指定需要重新生成的区域,模型可以在保持其余部分不变的情况下填充新内容。这对音乐制作中的局部修改、音效替换等场景非常实用。
性能对比
与前代 Stable Audio 2.5 相比:
- FAD(Fréchet Audio Distance):medium 和 large 均优于 2.5
- 主观听感测试中,medium 和 large 在音乐性(MUS)评分上超过 2.5(4.15 和 4.30 vs 3.70)
- 推理速度:生成 120 秒音频,small 仅需 0.45 秒,medium 0.78 秒,large 0.81 秒(2.5 需 0.85 秒)
使用注意事项
使用基于 AudioSparx 训练的模型变体时,提示词需要加前缀:
- 音乐:
TrackType: Music, VocalType: Instrumental, - 音效:
TrackType: SFX,
技术论文已发布在 arXiv(2605.17991),模型权重可在 Hugging Face 获取。
谁该关注
- 独立音乐人和音效设计师:开源的 small/medium 模型可本地部署
- 游戏和影视工作室:inpainting 编辑功能适合后期微调
- AI 应用开发者:极低延迟适合实时场景集成
- 研究者:SAME 自编码器的高压缩比方案值得参考
---
*来源:MarkTechPost 报道及 Stability AI 官方技术论文(arXiv:2605.17991)*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。