人工智能在谷歌今年的开发者大会I/O中扮演着中心角色,除了对现有产品的众多改进之外,谷歌还展示了用于搜索的新AI模型LaMDA和MUM。从模型的功能看,谷歌显然希望通过基于对话框的多模态AI将搜索的核心业务提升到一个新的水平,进而彻底改变网络搜索。
LaMDA能从第一人称视角回答用户提出的问题。该模型是对2020年初提出的Meena模型的进一步发展,对话能力明显超越了早期模型。
LaMDA专门针对文本,而MUM则使用文本、图像和视频数据进行训练,因此能够在图像或视频中搜索文本描述的内容。今年来,OpenAI和Facebook先后推出了自己的多模态AI模型DALL-E和MDETR。现在,谷歌通过MUM跟进了当前多模态模型的发展趋势。
据谷歌介绍,MUM比BERT强大得多,BERT是目前通过AI理解来改善谷歌搜索的语言模型。MUM接受了超过75种语言的图片、视频和文本的训练,应该会使人们对世界有更深刻的了解。
MUM应该具有很多上下文知识,因为多模态训练有助于AI结合来自文本、图像和视频的信息。
[…] 2.0类似于OpenAI的DALL-E和CLIP或者谷歌的LaMDA和MUM的多模态模型。它用 1.2 TB 的中文和 1.2 TB 的英文文本以及总共 2.5 TB […]