spot_img
首页游戏AI从人类反馈中学习让游...

从人类反馈中学习让游戏AI更自然地与人互动

Deepmind为电子游戏等数字环境中的人工智能代理引入了一个新的研究框架,让其在3D互动游乐场中从人类反馈中学习人类的行为,结果是AI代理变得更灵活了,能够更自然地与人类互动,甚至在某些复杂的指令上表现得优于人类用户。

AI代理并不总是有超人的表现

人工智能系统在《Dota》和《星际争霸》等电子游戏中取得了巨大的成功,击败了人类职业玩家。这是通过精确的奖励函数实现的,这些函数经过调整以优化游戏结果:代理使用代码计算出的独特胜负进行训练。在这种奖励功能成为可能的地方,AI代理有时会有超人的表现。

但通常情况下,特别是对于具有开放式结果的日常人类行为,却没有这样精确的奖励功能。例如,要让AI代理“把杯子放在附近”,它需要能够处理各种可能性。同一个请求有不同的语言表达方式,语言固有的歧义(“附近”是什么?),不相关的因素(例如杯子的颜色),以及许多实现请求的方式。

人类与AI之间更自然的互动

Deepmind研究人员希望开发能够与人类自然互动并向人类学习的AI代理。为此,他们依靠人类来完成AI代理必须在模拟环境中执行的任务,然后使用结果数据来优化代理。据称,经过人类反馈的训练,AI代理可以更好地理解“模糊的人类概念”,并与人类进行“接地气和开放式”的互动。

虽然仍处于起步阶段,但这种范式创建了可以实时聆听、交谈、提问、导航、搜索和检索、操作对象以及执行许多其他活动的代理。

AI代理在互动游乐场中向人类学习

对于这一新的研究框架,Deepmind开发了一个交互式3D游乐场,让AI代理和人类用户在其中作为化身自由移动,并相互交流和合作。人类和化身之间的任何交流都是通过聊天中的自然语言进行的。在这里,人类通过向代理提出任务或问题来设置上下文。

在游乐场环境中,研究团队还使用了所收集的用于强化学习训练的互动数据。据Deepmind介绍,生成的数据集包括25年来代理和数百人之间的实时交互。

向人类学习意味着为人类学习

对于高级AI代理,Deepmind首先克隆了游乐场中人类用户的行为和交互。研究人员写道,如果没有这个先验,AI代理就会以人类无法理解的方式随机行动。然后,根据经典的试错原则,通过强化学习的人类反馈来优化这种初始行为。不过,奖励或惩罚不是基于分数,而是人类评估这些行为是否有助于实现目标。基于这些交互,Deepmind随后训练了一个可以预测人类偏好的奖励模型。该奖励模型作为反馈机制,通过强化学习进一步优化代理。

从人类反馈中学习的 AI 代理的训练周期

学习过程的任务和问题来自人类以及模仿人类任务和问题的代理:一个代理提出问题和任务,另一个响应。

多样而令人惊讶的行为

根据Deepmind的说法,接受人类反馈训练的代理可以解决团队以前没有预料到的各种任务。例如,根据两种交替的颜色排列对象,或者为用户提供与他们当前持有的对象相似的对象。

之所以出现这些惊喜,是因为语言允许通过简单含义的组合带来几乎无穷无尽的任务和问题。此外,作为研究人员,我们没有具体说明代理行为的细节。相反,参与互动的数百人在这些互动过程中提出了任务和问题。

当与人类用户一起评估时,使用模仿学习和强化学习训练的AI代理的表现明显优于仅会模仿的代理。研究人员表示,训练过程也可以多次运行,以通过更新的奖励模型进一步优化代理。以这种方式训练的代理甚至能够在一些复杂的指令上平均胜过人类用户。

Deepmind认为他们引入的框架有助于开发电子游戏的AI代理,这些代理可以更自然地与人类互动,而不仅仅是根据预先编程的行为行事。该框架还可以帮助开发适合日常使用的数字或机器人助手。

人类是机器行为的基准

将人类反馈融入到人工智能系统的训练中,已被诸多机构视为使人工智能更好地适应人类需求的一种方式。例如,Deepmind推出的一个聊天机器人便将人类反馈纳入了训练过程,研究实验室CarperAI计划发布相应的开源语音AI。

OpenAI 将 AI 开发中的人类反馈视为AI的核心组成部分。借助Instruct GPT模型,OpenAI已经优化了具有人工反馈的大型语言模型,尽管参数较少,但可以生成放映人类偏好的文本。【编译自The Decoder 原文作者:Matthias Bastian】

赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容