Stability AI 开源 Stable Audio 3：从音效到音乐，最快不到 1 秒生成 20 秒立体声

分类: 音乐模型 |发布于: 5/27/2026 |最后更新: 5/27/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

Stability AI 正式发布并开源 Stable Audio 3，这是一个音频生成模型家族，涵盖音乐和音效两大场景。模型支持 44.1 kHz 立体声输出、可变长度生成和基于 inpainting 的音频编辑，推理速度极快——在 H200 上生成 20 秒音频仅需约 0.62 秒。

四个模型变体，覆盖不同需求

Stable Audio 3 包含四个模型：

small-music：459M 参数，最长 2 分钟，仅音乐
small-sfx：459M 参数，最长 2 分钟，仅音效
medium：1.4B 参数，最长 6 分 20 秒，音乐 + 音效
large：2.7B 参数，最长 6 分 20 秒，音乐 + 音效

其中 small 和 medium 模型权重已在 Hugging Face 开源，large 模型需企业授权。

核心技术：4096 倍压缩让长音频生成成为可能

Stable Audio 3 的关键创新是 SAME（Semantically-Aligned Music autoEncoder）自编码器。它将 44.1 kHz 立体声音频压缩为 256 维潜在表示，下采样比高达 4096 倍——远超此前主流方案的 1024~2048 倍。这意味着即使生成 6 分钟以上的音频，潜在序列长度也足够短，可以在消费级硬件上运行。

压缩分两步完成：先将立体声音频切分为 256 采样的 patch（256× 下采样），再通过 Transformer Resampling Block 进一步 16× 下采样。最终输出约 10.76 Hz 的潜在序列。

可变长度生成：按需付费，不浪费算力

以往的音频扩散模型通常以固定最大长度运行推理，即使只需要一段短音频也要跑满全长。Stable Audio 3 原生支持可变长度生成，推理成本与输出时长成正比。生成 20 秒音频约 0.62 秒，生成 380 秒音频约 1.31 秒（均在 H200 上测试）。

8 步推理：Ping-Pong 采样替代传统多步去噪

模型经过三阶段训练（流匹配 → 蒸馏预热 → 对抗后训练），最终只需 8 步推理即可生成高质量音频，无需 classifier-free guidance。推理采用 ping-pong 采样策略：模型先去噪到干净估计，再加入较低水平的噪声，然后再次去噪，如此反复 8 步。

Inpainting：不只是生成，还能编辑

Stable Audio 3 支持基于 inpainting 的音频编辑。通过二进制掩码指定需要重新生成的区域，模型可以在保持其余部分不变的情况下填充新内容。这对音乐制作中的局部修改、音效替换等场景非常实用。

性能对比

与前代 Stable Audio 2.5 相比：

FAD（Fréchet Audio Distance）：medium 和 large 均优于 2.5
主观听感测试中，medium 和 large 在音乐性（MUS）评分上超过 2.5（4.15 和 4.30 vs 3.70）
推理速度：生成 120 秒音频，small 仅需 0.45 秒，medium 0.78 秒，large 0.81 秒（2.5 需 0.85 秒）

使用注意事项

使用基于 AudioSparx 训练的模型变体时，提示词需要加前缀：

音乐：TrackType: Music, VocalType: Instrumental,
音效：TrackType: SFX,

技术论文已发布在 arXiv（2605.17991），模型权重可在 Hugging Face 获取。

谁该关注

独立音乐人和音效设计师：开源的 small/medium 模型可本地部署
游戏和影视工作室：inpainting 编辑功能适合后期微调
AI 应用开发者：极低延迟适合实时场景集成
研究者：SAME 自编码器的高压缩比方案值得参考

---

*来源：MarkTechPost 报道及 Stability AI 官方技术论文（arXiv:2605.17991）*

参考来源

https://www.marktechpost.com/2026/05/26/stability-ai-releases-stable-audio-3-a-family-of-fast-latent-diffusion-models-for-audio-generation-and-editing/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。