close
正在加载
Stability AI推出稳定音频2——音乐生成器能打败“令人震惊”的Suno 3吗?
互联网 · 2024-04-04 20:01:37
币界网报道:

Stability AI是一家致力于开源精神的领先人工智能开发商,本周发布了一款新的音频和音乐生成器Stable Audio 2。这是自9月Stable Audio首次亮相以来的第一个重要版本,其中有许多增强功能,加剧了来自Suno、谷歌和Meta等公司的工具之间的竞争。

Stability AI宣称:“Stable Audio 2.0能够从一个自然语言提示中以44.1 kHz的立体声播放高质量、完整的曲目,音乐结构连贯,最长可达三分钟。”。

这一消息发布之际,稳定公司正处于艰难时期。据报道,在首席执行官Emad Mostaque两周前辞职之前,稳定公司已经耗尽了现金储备。

尽管如此,该公司仍在开源人工智能领域继续向前发展。除了Stable Audio,该公司于3月25日推出了一款名为Stable Code Instruction 3B的新编码LLM,并于去年发布了一款称为Stable video Diffusion的高级开源文本到视频生成器。

Stability AI还将于今年晚些时候发布其最先进的图像生成器Stable Diffusion 3。

在开源追随者中,Stability AI与Mistral和Nous等知名人士一起发挥着主导作用。然而,其他大型科技公司也在探索开源领域,Meta和微软也做出了重要贡献。

车内稳定音响

在其核心,Stable Audio 2利用了扩散变压器技术(DiT),采用了与Stability AI即将推出的Stable diffusion 3图像生成器相同的方法,这代表着它与之前采用的U-Net技术的转变。

DiT和U-Net都是机器学习中使用的常见架构,但DiT旨在将随机噪声逐步细化为结构化数据,使其在处理长数据序列时特别有效。相比之下,U-Net专注于短代的准确性,但处理更长、更复杂序列的能力较弱。

Stable Audio 2的主要升级之一是音频到音频生成,这是一项新功能,用户可以转换上传的声音样本,类似于Stable Diffusion的img2img用于图像修改。

公告解释道:“用户现在可以上传音频样本,并通过自然语言提示将这些样本转换为各种声音。”。“这一更新还扩展了音效的产生和风格的转移,为艺术家和音乐家提供了更多的灵活性、控制力和提升的创作过程。”

换句话说,Stable Audio 2不会开始细化随机噪声,而是对初始音频文件进行建模,使其与用户的提示相匹配。结果是生成一个跟随提示但听起来与参考音频相似的生成。

该公司宣称,Stable Audio 2是在AudioSparx音乐库的授权数据集上独家训练的。这确保了所有艺术家都可以选择退出稳定音频模特培训,尊重他们的权利并确保公平的补偿。

Decrypt测试了该模型,结果显示与Stable Audio 1.0相比有显著改进。生成的音乐曲目更连贯,世代更长,是第一版本90秒限制的两倍。

Stable Audio 2的提示风格类似于Stable Diffusion 1.5,主要关注标签或关键词。自然语言提示不会产生好的结果。

该模型似乎最适合灵感或背景音乐,而不是取代受过适当训练的音乐家来创作招牌歌曲。在许多情况下,几代人都会产生多重幻觉和与提示不同的不和谐声音。尽管如此,它还是经常产生不错的即兴片段,可以在以后使用。

稳定音频2与Suno 3

尽管Stable Audio 2给人留下了深刻的印象,尤其是与前代相比,但与一个月前发布的领先音频生成器Suno 3的声音和歌曲相比,它的功能很快就会减弱。许多人工智能爱好者表示,《Suno 3》是人工智能音乐领域的最佳机型,Futurepedia的Kevin Hutson称其“令人震惊”,MatVidPro称其“改变了游戏规则”

虽然一首令人愉快甚至简单的好音乐是相对的,但Decrypt尝试使用相同的提示对Stable Audio 2和Suno 3进行并排比较。考虑到最佳提示风格的差异,这是一种不完美的方法——Stable Audio更喜欢关键词,而Suno 3则希望使用自然语言。

我们决定使用稳定性人工智能方法,尽管这可能对苏诺不利。幸运的是,Suno 3能够有效地理解我们的指令,提供了一种合理的方式来比较它们的输出。

尽管如此,稳定音频提示风格对初学者并不友好——只使用关键字和标签会限制输出的创造性和复杂性。例如,一个正常的Suno提示可能是“一首关于Decrypt的流行摇滚歌曲,一个覆盖人工智能领域的媒体网站。”一个典型的稳定音频提示可能是这样的:“格式:乐队|乐器:鼓、电吉他、贝斯、键盘,|流派:摇滚|子流派:重金属。”

开箱即用,Suno 3与竞争对手相比有一个主要优势:除了接受自然语言提示外,它还可以与大型语言模型(LLM)集成生成歌词。

就生成的音频质量而言,Stable audio 2与Suno 3相比有所不足。虽然Stability AI表示,其工具可以生成长达三分钟的连贯音乐,但曲目往往更为平淡,缺乏Suno 3生成的音频的创造力和结构复杂性。Suno 3的几代人通常包括适当的歌曲结构,包括自然的即兴段、合唱、桥段和变奏曲,使输出感觉更像一首完整的歌曲,而不是背景器乐曲目。

此外,在Stable Audio的几代音乐中,即兴段之间的转换往往是突然的。这与《Suno 3》形成了鲜明对比,后者通常在歌曲的不同部分之间平稳过渡,创造了更愉快的聆听体验。

这两种型号之间的另一个显著区别是音频生成的速度。Suno 3生成音频的速度比Stable audio 2快得多。虽然这可能是服务器问题,但这仍然是一个需要考虑的重要因素,尤其是对于需要快速高效地生成音频的用户来说。

但有一件事是Stable Audio 2所做的,而Suno 3却做不到:音频到音频的世代。

例如,使用Stable Audio 2,你可以吹出歌曲的旋律,而Stable Audio会给你的想法带来一些活力。这是苏诺用户还没有的控制水平。虽然这对我们来说不是一个破坏交易的因素,但对许多人来说肯定很重要。

Stable Audio和Suno都很强大,值得一试,尤其是当你有音乐制作缺陷但缺乏音乐技能时。但Stable Audio可能需要升级到第三个版本,才能与苏诺的同一代产品保持惊人的距离。

由Ryan Ozawa编辑。

s_logo
App内打开