Stability AI携手Arm开源Stable Audio Open Small：手机秒变音频创作利器-AITOP100,AI资讯

Stability AI与Arm强强联合，开源音频生成新模型

Stable Audio Open Small是什么？

近日，AI领域又有大动作！Stability AI联合芯片巨头Arm，正式开源了Stable Audio Open Small。这是一款专为移动设备量身打造的341M参数文本到音频生成模型。它的出现，让AI音频生成技术朝着边缘计算和移动设备大步迈进，意义非凡。

开源地址

模型项目：https://huggingface.co/stabilityai/stable-audio-open-small

技术亮点：

深度优化，参数量大幅压缩

Stable Audio Open Small是在Stability AI之前发布的Stable Audio Open模型基础上进行深度优化的成果。研发团队通过一系列技术手段，将参数量从1.1B压缩到了341M。这一改变意义重大，大幅降低了模型对计算资源的需求，为在移动设备上运行创造了条件。

Arm助力，移动端快速生成

得益于Arm的KleidiAI库支持，Stable Audio Open Small展现出了强大的移动端处理能力。在智能手机上，它能在不到8秒的时间内生成最长11秒的44.1kHz立体声音频。

而且，整个生成过程无需云端处理，完全可以在离线场景下完成。这对于那些网络不稳定或者对隐私保护有较高要求的用户来说，无疑是个好消息。

先进架构，文本提示生成音频

该模型采用了潜在扩散模型（Latent Diffusion Model），结合了T5文本嵌入和基于变压器的扩散架构（DiT）。用户只需输入简单的英文文本提示，比如“128BPM电子鼓循环”或者“海浪拍岸的声音”，模型就能生成音效、鼓点、乐器片段或者环境音。经过小编测试，在生成短音频片段时，模型生成的音频细节丰富，非常适合音效设计和音乐制作。

Stability AI

开源与许可：

遵循社区许可，免费开放部分用户

Stable Audio Open Small遵循Stability AI社区许可。对于研究人员、个人用户以及年收入低于100万美元的企业，模型权重和代码可以免费使用。目前，这些资源已经在Hugging Face和GitHub上发布，方便大家获取和使用。

企业需购许可，确保商业化可持续

而对于大型企业，则需要购买企业许可。这种分级许可策略既降低了技术门槛，鼓励全球开发者积极探索音频生成应用，又能确保技术在商业化过程中的可持续性，实现技术普及与商业发展的双赢。

版权合规，规避潜在风险

值得一提的是，模型训练数据全部来自Freesound和Free Music Archive的免版税音频。这一举措确保了版权合规性，有效规避了像Suno和Udio等竞争对手因使用受版权保护内容而引发的风险，让用户使用起来更加安心。

性能与创新：

引入ARC方法，提升生成速度

Stable Audio Open Small引入了对抗性相对对比（ARC）后训练方法。这种方法无需传统蒸馏或无分类器指导，通过结合相对对抗损失和对比鉴别器损失，显著提升了生成速度和提示遵循性。研究显示，在H100GPU上，模型生成12秒音频仅需75毫秒；在移动设备上，大约需要7秒。

性能指标领先，主观评价高分

在性能指标方面，该模型在CLAP条件多样性得分上达到了0.41，位居同类模型之首。在主观测试中，模型在多样性（4.4）、质量（4.2）和提示遵循性（4.2）上均获得了高分，充分展现了其在生成音效和节奏片段方面的优异表现。此外，其Ping-Pong采样技术进一步优化了少步推理，兼顾了速度与质量。

行业意义：

转型移动端，覆盖广泛用户

Stable Audio Open Small的发布标志着AI音频生成技术向移动端和边缘计算的转型。与依赖云处理的竞争对手不同，该模型的离线运行能力为移动场景（如实时音效生成）提供了极大的便利。据统计，它能够覆盖全球99%的智能手机用户，让更多人能够享受到AI音频生成的魅力。

重塑创作生态，促进创意普及

这种技术普及将重塑音频创作生态，让普通用户也能参与到专业级音效设计中来，实现创意的民主化。不过，该模型也存在一些局限性。目前，它仅支持英文提示，对非西方音乐风格的表现较弱，且无法生成逼真的人声或完整歌曲。但Stability AI表示，未来将优化多语言支持和音乐风格多样性，以提升全球适用性。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

AITOP100平台大赛社群二维码