生成式文本到图像模型(如 DALL-E 2、Stable Diffusion等)都是将知识存储在模型参数中,这使得它们规模庞大,训练资源密集。可检索外部数据库的增强的多模态模型可以解决这个问题,并提高人工智能系统的准确性。Meta最近展示的RA-CM3便是这样的多模态模型。研究团队称,RA-CM3比类似的系统小得多,并能更忠实地合成图像和更好地生成图像。
据The Decoder报道,此前,OpenAI、Google和Meta都演示过通过访问Internet来检查答案的WebGPT及其他语言模型。今年10月,谷歌研究人员展示了Re-Imagen,这一图像生成模型,使用外部多模态知识库检索有关未知或稀有对象的语义和视觉信息,以提高图像生成的准确性。

RA-CM3由Meta、斯坦福大学和华盛顿大学的研究人员组成的团队开发,使用LAION 数据集的一部分进行训练,该数据集也用于Stable Diffusion的训练。与Re-Imagen不同,RA-CM3可以处理文本和图像(文本提示和图像可以作为输入)。

在RA-CM3中,输入由多模态编码器处理并传递给检索器,检索器从外部存储器中检索相关的多模态数据,然后也由多模态编码器处理。然后将两个数据流传递到多模态生成器,以生成文本或图像。RA-CM3可以使用外部图像和文本数据来生成更准确的图像以及图像标题。该数据库还允许模型检索特定山脉、建筑物或纪念碑的图像,并使用它来生成包含该对象的图像。

研究团队表示,利用外部信息,从而更好地完成图像生成。RA-CM3可以使用多个外部图像作为图像合成的输入。另外,RA-CM3还表现出单次和几次图像分类能力。
研究团队指出,模型的规模对生成内容的质量的影响在RA-CM3中也得到反映。对于最大的RA-CM3模型,研究人员使用了1.5亿张图像和30亿个参数,但所生成的图像的平均质量低于OpenAI或谷歌的更大模型的平均质量。不过,缩放对于RA-CM3本身的影响也很明显:最大的模型领先于较小的变体。因此,团队假设较大的RA-CM3模型将会有更好的表现。