spot_img
首页音频AIRiffusion:...

Riffusion:从短文本提示经由Stable Diffusion生成音乐

AI软件Riffusion可以从短文本输入经由图像来生成音乐,即,先通过提示,由图像AI生成器Stable Diffusion创建一个频谱图、一个声音片段的视觉表示,然后再生成音乐。Riffusion 可以使用来自个别艺术家或乐队的歌曲进行微调,并能够清楚地反映他们的风格,展示了人工智能塑造音乐创作未来的潜力。

生成AI模型一年来对文本和图像行业产生了重大影响,但音乐行业却没有看到相应的转变。Riffusion是在音频中使用生成AI模型的不多的例子之一。这一AI生成器由企业家Seth Forsgren和工程师Hayk Martiros开发。

Riffusion通过使用Stable Diffusion v1.5提供了一种音乐生成方法,该方法生成声波图像,然后将其转换为音乐。开发人员称,该模型只是用频谱图的图像进行微调,而不是重新训练。频谱图是声音部分内容的视觉表示。x 轴表示时间,y 轴表示频率。每个像素的颜色表示该点声音的振幅。

Riffusion可以通过改变种子来创建提示的无限变化。Stable Diffusion中已知的所有技术,如img2img、修复或负面提示,都可以使用。开发人员写道:

提供提示时,请发挥创意!尝试您最喜欢的风格,萨克斯管或小提琴等乐器,阿拉伯语或牙买加语等修饰符,爵士乐或摇滚乐等流派,教堂钟声或雨声,或任何组合。训练数据中不存在的许多单词仍然有效,因为文本编码器可以将单词与类似的语义相关联。

提示在精神上越接近种子图像和 BPM,结果就越好。例如,提示输入比种子图像快得多的 BPM 流派将导致较差的通用音频。

Riffusion可以直接在其官方网站上免费试用,无需注册。设置仅限于影响旋律模式的五个不同的种子图像和四个降噪级别。选择的降噪因子越高,结果就越有创意,对节拍的影响也越小。

Riffusion允许用户通过链接与他人分享他们生成的节拍,或下载MP3格式的五秒钟摘录,以便在音频软件中进一步处理。用户生成的音频还会在Riffusion的Reddit账户上列出。

此外,用户可以使用特定的艺术家或乐队(例如Rammstein乐队)的作品,对Rifffusion进行训练,以创建自己的自定义Rifffusion模型。虽然所产生的声音可能不是最高质量的,但所选乐队的独特风格将会得到清晰体现。关于如何创建这些自定义模型的教程可以在Reddit上找到。

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容