spot_img
首页AI技术在ChatGPT上取...

在ChatGPT上取得成功的人工反馈强化学习可推进计算机视觉

OpenAI的ChatGPT受益于人类反馈的训练。谷歌现在正在研究这种方法如何改善计算机视觉模型。初步结果表明,强化学习可以成功地用于微调计算机视觉模型,并且可以产生更好的模型。研究团队认为,在 ChatGPT 上取得成功的人工反馈强化学习训练为计算机视觉带来希望,例如,这种方法可以提高机器人对场景的理解,使其能够更成功地抓住物体。

只使用标记图像的训练已经过时

第一个用于对象识别的深度学习模型是基于具有大量标记图像的监督学习。例如,猫的图像带有“猫”的数字标签。通过这种方式,系统学习单词和图像之间的关系。随着Transformer架构在语言处理中的成功应用,研究人员开始地将Transformers和自我监督学习应用于计算机视觉。

只使用标记图像的训练已经过时:与文本模型一样,图像模型从大量非结构化数据中学习。谷歌的 Vision Transformer 是最早达到旧有监督模型水平的架构之一。

强化学习可以改进预训练的 AI 模型

随着大型语言模型 GPT-2 的发布,OpenAI 开始尝试使用人工反馈强化学习(RLHF)来训练语言模型。这是因为大型、预训练的语言模型虽然极其通用,但难以控制——微软目前正在使用其必应(Bing)聊天机器人来体验这一事实。

另一方面,RLHF 使用奖励信号来教导大型语言模型哪些文本生成是可取的,哪些是不正确的或不需要的。正如ChatGPT所示,这会产生更加一致的模型,并且似乎对系统的整体性能产生积极影响。

谷歌的研究团队现已采用这一发现并测试计算机视觉模型是否也可以从带有奖励信号的强化学习(RL)中受益。该团队训练了多个视觉转换器模型,然后使用简单的强化学习算法针对特定任务(例如对象识别、全景分割或图像着色)对其进行优化。

计算机视觉模型也受益于奖励信号

谷歌的研究团队表明,使用RL改进的对象识别和全景分割模型与专门用于这些任务的模型不相上下。由于RL,着色模型的性能也更好。

作为一项概念验证研究,谷歌的工作表明,通过强化学习微调计算机视觉模型的工作方式类似于自然语言处理,并且可以产生更好的模型。

下一步是将这些奖励信号与人类反馈相结合——就像 ChatGPT 的情况一样。研究人员认为这是一个有前途的研究领域,并希望将 RLHF 应用于计算机视觉中的挑战性任务,例如调整机器人对抓取的场景的理解和输出。在这里,RLHF 可以启用更好的感知模型并提高成功掌握的可能性。【编译自The Decoder】

专栏
赞赏
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容