Stability AI推出稳定音频2——音乐生成器能打败“令人震惊”的Suno 3吗？

币界网报道：

Stability AI是一家致力于开源精神的领先人工智能开发商，本周发布了一款新的音频和音乐生成器Stable Audio 2。这是自9月Stable Audio首次亮相以来的第一个重要版本，其中有许多增强功能，加剧了来自Suno、谷歌和Meta等公司的工具之间的竞争。

Stability AI宣称：“Stable Audio 2.0能够从一个自然语言提示中以44.1 kHz的立体声播放高质量、完整的曲目，音乐结构连贯，最长可达三分钟。”。

这一消息发布之际，稳定公司正处于艰难时期。据报道，在首席执行官Emad Mostaque两周前辞职之前，稳定公司已经耗尽了现金储备。

尽管如此，该公司仍在开源人工智能领域继续向前发展。除了Stable Audio，该公司于3月25日推出了一款名为Stable Code Instruction 3B的新编码LLM，并于去年发布了一款称为Stable video Diffusion的高级开源文本到视频生成器。

Stability AI还将于今年晚些时候发布其最先进的图像生成器Stable Diffusion 3。

在开源追随者中，Stability AI与Mistral和Nous等知名人士一起发挥着主导作用。然而，其他大型科技公司也在探索开源领域，Meta和微软也做出了重要贡献。

车内稳定音响

在其核心，Stable Audio 2利用了扩散变压器技术（DiT），采用了与Stability AI即将推出的Stable diffusion 3图像生成器相同的方法，这代表着它与之前采用的U-Net技术的转变。

DiT和U-Net都是机器学习中使用的常见架构，但DiT旨在将随机噪声逐步细化为结构化数据，使其在处理长数据序列时特别有效。相比之下，U-Net专注于短代的准确性，但处理更长、更复杂序列的能力较弱。

Stable Audio 2的主要升级之一是音频到音频生成，这是一项新功能，用户可以转换上传的声音样本，类似于Stable Diffusion的img2img用于图像修改。

公告解释道：“用户现在可以上传音频样本，并通过自然语言提示将这些样本转换为各种声音。”。“这一更新还扩展了音效的产生和风格的转移，为艺术家和音乐家提供了更多的灵活性、控制力和提升的创作过程。”

换句话说，Stable Audio 2不会开始细化随机噪声，而是对初始音频文件进行建模，使其与用户的提示相匹配。结果是生成一个跟随提示但听起来与参考音频相似的生成。

该公司宣称，Stable Audio 2是在AudioSparx音乐库的授权数据集上独家训练的。这确保了所有艺术家都可以选择退出稳定音频模特培训，尊重他们的权利并确保公平的补偿。

Decrypt测试了该模型，结果显示与Stable Audio 1.0相比有显著改进。生成的音乐曲目更连贯，世代更长，是第一版本90秒限制的两倍。

Stable Audio 2的提示风格类似于Stable Diffusion 1.5，主要关注标签或关键词。自然语言提示不会产生好的结果。

该模型似乎最适合灵感或背景音乐，而不是取代受过适当训练的音乐家来创作招牌歌曲。在许多情况下，几代人都会产生多重幻觉和与提示不同的不和谐声音。尽管如此，它还是经常产生不错的即兴片段，可以在以后使用。

稳定音频2与Suno 3

尽管Stable Audio 2给人留下了深刻的印象，尤其是与前代相比，但与一个月前发布的领先音频生成器Suno 3的声音和歌曲相比，它的功能很快就会减弱。许多人工智能爱好者表示，《Suno 3》是人工智能音乐领域的最佳机型，Futurepedia的Kevin Hutson称其“令人震惊”，MatVidPro称其“改变了游戏规则”

虽然一首令人愉快甚至简单的好音乐是相对的，但Decrypt尝试使用相同的提示对Stable Audio 2和Suno 3进行并排比较。考虑到最佳提示风格的差异，这是一种不完美的方法——Stable Audio更喜欢关键词，而Suno 3则希望使用自然语言。

我们决定使用稳定性人工智能方法，尽管这可能对苏诺不利。幸运的是，Suno 3能够有效地理解我们的指令，提供了一种合理的方式来比较它们的输出。

尽管如此，稳定音频提示风格对初学者并不友好——只使用关键字和标签会限制输出的创造性和复杂性。例如，一个正常的Suno提示可能是“一首关于Decrypt的流行摇滚歌曲，一个覆盖人工智能领域的媒体网站。”一个典型的稳定音频提示可能是这样的：“格式：乐队|乐器：鼓、电吉他、贝斯、键盘，|流派：摇滚|子流派：重金属。”

开箱即用，Suno 3与竞争对手相比有一个主要优势：除了接受自然语言提示外，它还可以与大型语言模型（LLM）集成生成歌词。

就生成的音频质量而言，Stable audio 2与Suno 3相比有所不足。虽然Stability AI表示，其工具可以生成长达三分钟的连贯音乐，但曲目往往更为平淡，缺乏Suno 3生成的音频的创造力和结构复杂性。Suno 3的几代人通常包括适当的歌曲结构，包括自然的即兴段、合唱、桥段和变奏曲，使输出感觉更像一首完整的歌曲，而不是背景器乐曲目。

此外，在Stable Audio的几代音乐中，即兴段之间的转换往往是突然的。这与《Suno 3》形成了鲜明对比，后者通常在歌曲的不同部分之间平稳过渡，创造了更愉快的聆听体验。

这两种型号之间的另一个显著区别是音频生成的速度。Suno 3生成音频的速度比Stable audio 2快得多。虽然这可能是服务器问题，但这仍然是一个需要考虑的重要因素，尤其是对于需要快速高效地生成音频的用户来说。

但有一件事是Stable Audio 2所做的，而Suno 3却做不到：音频到音频的世代。

例如，使用Stable Audio 2，你可以吹出歌曲的旋律，而Stable Audio会给你的想法带来一些活力。这是苏诺用户还没有的控制水平。虽然这对我们来说不是一个破坏交易的因素，但对许多人来说肯定很重要。

Stable Audio和Suno都很强大，值得一试，尤其是当你有音乐制作缺陷但缺乏音乐技能时。但Stable Audio可能需要升级到第三个版本，才能与苏诺的同一代产品保持惊人的距离。

由Ryan Ozawa编辑。