AudioGen,一个来自Meta AI和耶路撒冷希伯来大学的研究团队的生成AI模型,可以通过输入文本来生成音频,亦可以扩展现有音频。
据研究人员介绍,AudioGen可以区分不同的对象,并在声学上将它们分开,例如当几个人同时说话时。它还可以模拟背景噪声,如混响。为了训练模型的这些技能,研究人员使用了一种混合不同音频样本的增强技术。通过这种方式,模型学会了分离多个源。
研究人员总共使用了十个音频和匹配文本注释数据集对AudioGen进行了训练。之后,AudioGen可以生成训练数据集中没有的新的音频作品,例如一个人在森林中漫步,而鸟在叽叽喳喳。做到这一点,所需要的只是一个文本提示。
对音频质量以及文本和音频的相关性所进行的评估,结果是理想的。在研究人员随机选择的100个音频样本中,超过85%包含至少两个概念,例如,“狗吠叫,鸟唱歌”。
据主要研究者Felix Kreuk介绍,该系统还可以生成音乐,甚至能唱歌,但它不是为此设计的,因此目前提供的相关控制选项很少。
研究团队将AudioGen视为未来迈向更好的文本到音频模型的第一步。他们表示,该技术还可以实现语义音频处理,支持将音频源与离散单元分离。文本到音频的AI研发成就不只有AudioGen。不久前,谷歌推出了AudioLM,这一AI模型使用大型语言模型的技术来生成高质量和连贯性的语音和钢琴音乐。