继OpenAI、谷歌,Midjourney和StabilityAI之后,英伟达(Nvidia)也推出了一个从文本到图像的生成AI模型,名为eDifi。据称,该模型性能优于DALL-E 2和Stable Diffusion等,且可以通过“用文字绘画”功能进行更精确的控制。
当前所有主要的文本到图像生成模型都是扩散模型,它们通过迭代去噪过程执行图像的合成:图像逐渐从随机噪声中生成。

通常AI模型都是通过单个降噪器来对图像生成的过程进行降噪,而英伟达的eDifi则依赖于一组专业降噪器,对生成过程的各个步骤进行降噪。英伟达称,通过集成多种专业降噪器,eDifi取得了相比DALL-E 2、Stable Diffusion等AI模型更好的结果。例如,eDiffi 更擅长在图像中生成文本,并且更好地遵守原始文本提示的内容规范。

eDifi依赖于三种扩散模型的组合,其中一个是可以合成64×64分辨率图像的基本模型,另两个超分辨率模型则将图像递增采样到256×256或1024×1024分辨率。

除了通常的 CLIP 文本和图像嵌入之外,eDifi模型还计算 T5 文本嵌入。T5是谷歌的文本到文本转换器,是对CLIP嵌入的补充。英伟达的研究人员说,将两个文本嵌入结合起来可以创建更富细节的图像,并更好地匹配提示。eDifi甚至可以准确地将长文本提示转换为图像。

除了文本提示,eDiffi 还可以将参考图像处理为输入,并使用其样式进行图像合成。英伟达还展示了“用文字绘画”功能,用户可以通过首先绘制草图,然后选择文字并将其写在图像上来控制文本输入中提到的对象的位置。
英伟达的研究人员在论文《eDiffi:具有专家去噪器集成的文本到图像扩散模型》(eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers)中展示了eDiffi,但没有透露该模型在应用方面的计划。
可以想见的是,该模型在训练管道中呈现的变化将可以用于DALL-E或Stable Diffusion的新模型,使之可以在生成图像的质量和控制方面取得重大进展。【编译自The Decoder】