spot_img
首页文本AI谷歌AI语言模型Pa...

谷歌AI语言模型PaLM可以解释笑话,展现开创性能力

谷歌最近展示了其新的人工智能模型PaLM(Pathways Language Model),称该模型在许多要求苛刻的语言任务中展现了“开创性的能力”,例如语言理解和生成、推理以及与代码相关的任务,甚至能够解释简单的笑话。

去年,谷歌推出了Pathways 概念,这是一种用于下一代人工智能的架构,目标是用一个单一的大型 AI 模型执行许多不同的任务。借助 PaLM,谷歌已经推出了用于自然语言处理的 Pathway 架构的第一个构建块。

PaLM 有5400亿参数,目前在同类模型中是最大的。谷歌Deepmind在2021年12月曾展示一个2800亿参数的模型,OpenAI著名的语言AI模型 GPT-3是1750亿参数,英伟达和微软联合训练的Megatron模型也只有5300亿参数。这些系统都基于Transformer架构。

谷歌在为 Pathways 开发的训练系统上对PaLM进行了训练,该系统可以在 6144 个芯片上及两个Cloud TPU v4 pod上进行训练。据谷歌称,这是迄今为止最大的基于 TPU 的人工智能训练设施。PaLM 接受了英语和其他多语言数据集的混合训练,文本来自维基百科等“高质量”网站和书籍,代码示例来自编程平台 Github。

AI 模型的语言处理能力随着参数的增加而不断增强,模型越大,处理语言的效果越好、越多样化。这是研究团队由PaLM得出的结论。谷歌称,PaLM能够区分因果关系,理解上下文中的术语组合,甚至能通过表情符号来猜测电影。

像其他大型语言模型一样,PaLM 也可以通过一些额外的示例进行微调,以完成代码生成等特殊任务。通过所谓的“few-shot”学习,PaLM应该能击败所有已知的主要 AI 语言模型,这意味着该模型更加通用。

谷歌研究团队认为,训练大型人工智能模型,然后用少量数据将其微调到特定任务的方法,无需尽用模型的资源。“扩展模型缩放的限制使PaLM在各种自然语言处理、推理和代码任务中具有开创性的few-shot性能。”

研究团队称,PaLM通过将扩展能力与新颖的架构决策和训练方案相结合,为更强大的模型铺平了道路。因此,这是迈向伟大愿景的重要一步,在这一愿景中,单个人工智能模型可以理解不同的数据,从而有效地处理数千甚至数百万的任务。

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容