spot_img
首页视频AIAI模型Motion...

AI模型Motion Diffusion可从文本生成自然和富有表现力的人体动画

以色列特拉维夫大学一个团队研发的AI模型Motion Diffusion Model(MDM)可以从文本、动作或现有动画生成自然和富有表现力的人体动画。

从文本创建新媒体的生成式 AI研发在2022年取得了爆发性发展,如DALL-E 2、Midjourney、Imagen和Stable Diffusion可生成照片级或艺术图像,Make-a-Video和Imagen Video能生成短视频,AudioGen 和 AudioLM Audio以及CLIP-Mesh和Dreamfusion可从文本创建 3D 模型。在这样的背景下,特拉维夫大学的研究人员将注意力转向产生人体动画的AI研究。

根据研究团队的描述,自动生成令人信服的人类动作动画非常难,因为这非常复杂。一个人从 A 到 B 的步态包含一些重复的特征,但是在动作的具体执行上却有无数种变化。此外,动作很难描述:例如,踢可以是足球踢或空手道踢。尤为困难的是,动画动作中即使微小的缺陷也会显得不自然。

当前成像系统(如 DALL-E 2)中使用的扩散模型已展示出卓越的生成能力和可变性,使其成为人体运动的不错选择。但MDM更进了一步,它相应地依赖于扩散模型和变压器架构。这是一个通用框架,适用于各种形式的输入。

在介绍该模型的论文中,研究人员展示了文本到动作、动作到动作以及完成和操作现有动画的示例。在文本到动作的任务中,MDM 生成与文本描述相对应的动画。由于是扩散模型,相同的提示会产生不同的变体。在动作到动作的任务中,MDM 生成与特定动作类匹配的动画,例如“坐下”或“走路”。

此外,MDM可以编辑动作。研究人员将他们的方法与修复进行了比较,修复允许用户在 DALL-E 2 等稳定扩散中标记图像的一部分,并通过文本描述进行更改。在编辑过程中,可以有选择地为身体的各个部分设置动画,而其他部分则不会移动或保留其原始动画。

据介绍,在基准测试中,MDM领先于其他运动生成模型。未来,研究团队希望探索更好地控制动画的方法,从而扩大人工智能系统的应用范围。MDM的代码和模型在GitHub 上提供。

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容