spot_img
首页音频AI谷歌AI模型Audi...

谷歌AI模型AudioLM可以生成高质量和连贯性的语音和钢琴音乐

谷歌的一个研究团队最近展示了一种用于音频生成的AI模型,名为AudioLM,它可以生成高质量和连贯性的语音和钢琴音乐。

我们知道,OpenAI的GPT-3等大型语言模型均是将文本输入转换为所谓的令牌,然后由模型处理并用于文本生成。这些用于自然语言处理的基于文本的模型取得了相当大的成功,以至于其他领域也开始使用类似的方法,比如“textless NLP”,便涉及到对没有文本的语言的处理。Meta的生成口语模型GSLM是其中的一个例子,它是用未标记的音频数据训练的。它的一个名为dGSLM的变体于2022年4月推出,并针对对话进行了优化,甚至可以模仿笑声和打哈欠。

AudioLM的研究团队希望采用类似的方法来生成高质量、连贯性的音频。为此,他们使用了语言模型领域的一些技术,包括专门用于音频的谷歌BERT语言模型的编码器变体。

研究人员首先从原始音频波形中构建语义标记。他们表示,这些波形捕获了本地依赖性,如语音或钢琴音乐中的本地旋律。这还可以处理全局的长期结构,如语言句法、语义内容、和和节奏。过程中还得到另一个编码器SoundStream的支持,该编码器处理声音标记,捕获音频波形的细节并实现高质量合成。研究团队称,这两个编码器协同工作,可实现高音质和长期一致性。然后,令牌通过SoundStream解码器转换为音频。

研究团队使用60,000小时的英语演讲对AudioLM进了训练,使用40,000小时的钢琴音乐训练了AudioLM的一个变体。两种模型都使用语义和声学标记,并且可以在训练后生成以前未听过的语音和音乐。

AudioLM能够以相对较高的质量继续发声并复制录音条件,这引发了关于此类AI系统未来的新问题。研究人员说,AudioLM继承了对文本语言模型的所有关注,例如反映底层数据中的社会偏见。此外,他们指出,“在保持说话人身份和韵律的同时继续短语音片段的能力可能会导致恶意用例,例如欺骗生物特征识别或冒充特定说话人”。

为此,谷歌训练了另一个AI模型,它可以可靠地识别AudioLM合成的音频片段。【编译自the-decoder】

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容