语言模型GPT-3的研发机构OpenAI年初发布了一个新 AI 模型:DALL-E。虽然没有 GPT-3 那么受欢迎,但它对人工智能的未来可能有着更深远的影响。

DALL-E 这个名字是对超现实主义艺术家萨尔瓦多·达利(Salvador Dali)和可爱的皮克斯机器人瓦力(WALL-E)的致敬。它将文本作为输入,然后生成原创图像作为输出。例如,当输入诸如“五角形绿色时钟”、“火球”或“建筑侧面的蓝色南瓜壁画”之类的短语后,DALL-E 能够产生令人震惊的精确的视觉渲染。

DALL-E 预示多模态 AI的到来

首先,它预示着一种被称为“多模态 AI”的新型 AI 范式的到来,这种范式似乎注定了人工智能的未来。多模态 AI 系统能够在多种信息模态之间进行解释、综合和翻译——在 DALL-E 的例子中,是语言和图像。DALL-E 并不是第一个多模态 AI 的例子,但它是迄今为止最令人印象深刻的。

OpenAI 联合创始人 Ilya Sutskever 总结得很好:“世界不只是文本。人类不仅会说话,我们还会看。很多重要的背景都来自于看。”

目前存在的大多数 AI 系统只处理一种类型的数据。NLP 模型(例如,GPT-3)只处理文本;计算机视觉模型(如面部识别系统)只处理图像。这是一种远不如轻松获得丰富信息的人类大脑的智力形式。

人类不断地从五种感官接收和整合信息——我们通过视觉、听觉、触觉、嗅觉和味觉的结合来理解我们周围的世界。我们用各种各样的方式向世界传达信息——言语,文字,肢体语言,面部表情,音乐。

通过将对自然语言的理解与生成相应视觉表现的能力结合起来——换句话说,通过“读”和“看”的能力——DALL-E 有力地展示了多模态 AI 的潜力。

这仅仅是个开始。在未来的几个月和几年里,AI 系统将能够无缝连接音频、视频、语音、图像、书面文本、触觉等内容并进行交互。随着 AI 学会以越来越复杂的方式整合多种信息模式,它理解世界和产生新见解的能力将会组合性爆发。

DALL-E之后,人们将越来越难以否认AI的创造力

DALL-E 之所以重要,还有一个更根本的原因:人们越来越难以否认人工智能具有创造力。

DALL-E 生成的图像未曾存在于世界上或任何人的想象中。它们不是对互联网上现有图像进行操作的结果——它们是新颖的效果图,有时因其聪明和独创性而令人惊叹。这些图像是 DALL-E 的人类创造者在很多情况下没有预料到的,也不可能预料到的。

看看 DALL-E 那令人愉快、富有创意的涂鸦,比如“一碗陷入爱河的拉面的表情符号”、“鳄梨制成的企鹅”——如果这些图像是人类创作的,我们会毫不犹豫地认为它们是创作过程的输出。我们能否认 DALL-E 的创造力吗?

这种创新能力使 DALL-E 在产品设计、时尚和建筑等领域具有直接的现实意义。用不了多久,人类设计师将 DALL-E 这样的 AI 作为创意伙伴和灵感来源将会很普遍。

举个例子,当被要求设计“一个甜甜圈风格的扶手椅”时,DALL-E 会给出各种富有想象力的选择——当然,有些设计得更好,也比其他的好看。我们很容易想象一个家具设计师反复使用 DALL-E,探索模型的输出,在文本提示下进行迭代,然后使用 AI 的设计作为自己的扶手椅设计的出发点。类似的创意过程适用于许多产品——从汽车到灯具,从珠宝到房屋。

DALL-E 远非完美,但会继续快速发展

关于这项技术,有几个重要的警告。DALL-E 远非完美。它生成的图像并不总是能准确地表达文本的意义,例如它经常会弄错颜色、数量或空间关系。

而 OpenAI 公开的 DALL-E 作品的例子,虽然不是人工挑选的,但首先是由另一个名为 CLIP 的神经网络进行排名和挑选的。对于每个文本输入,只给出 512 个示例中的前 32 个示例。换句话说,DALL-E 还生成了大量不那么好的鳄梨企鹅和甜甜圈椅的图像。

不过总体来说,DALL-E 的生产能力是惊人的,而且该技术将继续快速发展。

DALL-E 将为机器的创造能力开启新的可能性

与人工智能领域的任何重大发展一样,DALL-E 不可避免地会引发一个古老的问题:机器是否正在越来越接近“真正的”人类级的智能?

一方面,DALL-E 的公布引发了对超级智能到来的喧嚣。另一方面,像著名的深度学习批评家加里·马库斯(Gary Marcus)这样的怀疑论者则认为,DALL-E 并没有真正推动 AI 技术的发展。

马库斯的观点值得认真对待。深度学习——包括 DALL-E 和 GPT-3 背后的架构——作为一种智能概念模型确实有很大的局限性。

然而,从某种意义上说,这场辩论没有抓住要点。不管 OpenAI 的新模型是否代表着向“人工通用智能”迈出了真正的一步,不管深度学习是否是一条通往像人类认知一样强大的机器智能的可行道路,DALL-E 是一种具有非凡新能力的新工具,这一事实难以质疑。

DALL-E 及其继任者将在人类和机器之间的创造性的关系中开启新的可能性。这一过程将创造巨大的经济价值,成为新一轮创新创业和产品浪潮的基础。

事情只会从现在开始变得更神奇。【本文最初发表于数字叙事 原文:Rob Toews;编译:Lighting】

5 评论

  1. […] 关于多模态模型和DALL-E,Altman 确认 DALL-E 在处理自然语言方面无法超越纯文本模型。然而,他预计未来几年多模态模型将在语言生成方面抛开纯文本模型。如果这没有发生,OpenAI 押注多模态 AI 模型的性能就会受到质疑。对于未来,Altman 希望拥有众多多模态模型,这些模型将针对教育、法律、生物学或治疗等特定领域进行训练。 […]