Stable Diffusion可以从文本生成图像,也可以由图像生成新图像,后者通常用于改进生成的图像或基于模板创建新图像。然而,尽管2.0 版本引入了使用图像深度信息作为模板的功能,但对过程的控制相当有限,而且大量自定义模型仍在使用的1.5 版本也不支持此方法。
据The Decoder报道,斯坦福大学的一个研究团队研发的ControlNet——一种“通过添加附加约束来控制扩散模型的神经网络结构”——可以更好地控制Stable Diffusion的图像生成。
ControlNet 将Stable Diffusion每个块的权重复制到可训练变体和锁定变体中。可训练变体通过微调小数据集来学习图像合成的新条件,而锁定变体则保留扩散模型的生产可用性功能。

研究人员解释说:“没有一个层是从头开始训练的。你只是在微调。你的原始模型是安全的。”还说,即使在只有 8GB 图形内存的 GPU 上,也可以进行训练。
研究团队发布了一组使用 ControlNet的预先训练的模型,这些模型可以更好地控制图像到图像管道,其中包括用于边缘或线检测、边界检测、深度信息、草图处理以及人体姿势或语义图检测的模型。

所有 ControlNet 模型都可以与Stable Diffusion一起使用,并提供对生成 AI 的更好的控制。该团队展示了具有恒定姿势的人的变体示例,基于模型空间结构的不同内部图像或鸟类图像的变体。

GAN也存在类似的控制工具,ControlNet现在将这些工具带到了目前更强大的图像AI中。更多示例、代码和模型可在 ControlNet GitHub 上找到。