spot_img
首页通用AI微软新AI模型CoD...

微软新AI模型CoDi可同时处理和生成多种模式的内容

传统的生成式人工智能系统仅限于特定的输入模式,微软Azure认知服务研究人员最近公布的AI 模型CoDi (Composable Diffusion)超越了这一模式。这是一种可组合的、基于扩散的 AI 模型,能够同时处理和生成多种模式的内容,包括文本、图像、视频和音频。

当今大多数模态组合的训练数据集都很稀缺,为此,研究人员使用了一种在输入和输出空间中匹配模态的对齐策略,这使CoDi 可以自由地以任何输入组合为条件并生成任何模式集,甚至是训练数据中不存在的模式。

CoDi旨在突破传统单模态 AI 模型的局限性,为组合特定模态生成模型的繁琐且缓慢的过程提供解决方案。这种新颖的模型采用了独特的可组合生成策略,可以桥接扩散过程中的对齐,并促进交织模态的同步生成,例如时间对齐的视频和音频。

CoDi的训练流程也颇具特色。它涉及将图像、视频、音频和语言等输入模式投影到公共语义空间中。这允许灵活处理多模态输入,并且通过交叉注意模块和环境编码器,能够同时生成输出模态的任意组合。

微软的研究人员提供的 CoDi 功能示例展示了其根据单独的文本、音频和图像提示生成同步视频和音频的能力。在一个示例中,输入包括文本提示“滑板上的泰迪熊,4k、高分辨率的时代广场的图像以及雨声”,结果生成了一段简短但质量较低的视频,视频中一只泰迪熊在雨中的时代广场玩滑板,伴随着同步的雨声和街道噪音。

CoDi 的潜在应用广泛,尤其在教育和残疾人无障碍等行业。“我们的工作标志着朝着更具吸引力和整体性的人机交互迈出了重要一步,为未来生成人工智能的研究奠定了坚实的基础。”研究人员写道。

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容