谷歌大型人工智能模型Vision Transformer 在 ImageNet 基准测试中创造了新记录。研究人员表示,未来将出现更大的转换器模型,并且有朝一日可能会产生一个图像分析系统,只需几个例子,就可以专门用于各种任务。
2020年秋季,谷歌的研究证明,原则上使用转换器模型(Transformer Models)对图像进行AI分析是可行的:在AI训练期间,视觉转换器(Vision Transformer,ViT)能处理多个部分的图像,并预测图像缺失的部分。以此,谷歌发展了AI系统对图像内容的理解。
以前在自然语言处理中使用转换器的经验表明,转换器系统通常使用更多的数据和更大的模型效果更好。在一个新的研究项目中,谷歌的研究人员证明这种关系也适用于Vision Transformer。
来自苏黎世的谷歌Brain团队训练了几个VIT模型来收集性能数据、所需的计算性能和培训课程。最大的ViT-G/14模型基于近20亿个参数,用30亿张图像进行了训练,在使用ImageNet数据集进行额外训练后,在基准测试中达到了90.45%的最佳值,比ViT-MoE-15B领先了近0.1个百分点。
研究结果还表明,预训练的AI模型使用较少的例子即可学习新的或扩展的能力。研究人员使用 30 亿张图像重新训练了一个 ViT-G/14,每个 ImageNet 类别有 10 个样本图像,这相当于通常用于AI 训练的ImageNet 数据的1%还不到。虽然示例很少,但 ViT-G / 14 达到了 84.86% 的准确率。
研究人员在项目的研究论文中写道,这样的结果表明,如果有额外的计算能力,更大的AI模型是值得的。