普林斯顿大学和微软研究院的一项研究发现,即使在完全没有语言语义的情况下,自主语言理解代理也能够获得高分,这表明当前面向文字游戏的 RL(强化学习)代理可能未能充分利用游戏文本的语义结构。

基于文本的游戏已经成为开发和测试 RL 算法的热门测试平台,该算法能够处理和响应自然语言输入。这一研究方向的目标是构建能够利用文本语义理解的自主代理,亦即可以像人类一样“理解”单词和短语的含义,从而在此类场景中取得成功的智能代理。

但普林斯顿大学和微软研究院的研究团队发现事实并非如此。为了弥补 RL 代理可能未能充分利用游戏文本的语义结构这一缺陷,并构建具有更强语义理解的代理,研究团队提出了一种逆动力学译码器,旨在规范表示空间,并鼓励对与游戏相关的更多语义进行编码。

该团队进行了三项实验,以探索不同语义表征对《ZORK I》等 12 款互动小说游戏的影响。研究结果证明了开发具有更多语义表示和更好地掌握自然语言的 RL 代理的潜在好处。

研究团队在 NeurIPS 2020 研讨会“文字游戏:当语言遇上游戏”中提交的论文《蒙着眼睛阅读和表演:文本游戏代理人对语义的需求》(Reading and Acting while Blindfolded: The Need for Semantics in Text Game Agents)论述了此项研究。

2 评论