自GPT-2以来的大型语言模型将AI文本生成提升到了一个新的水平,但也为产生假新闻和仇恨言论以及扩大偏见带来了隐忧。谷歌强大的聊天机器人Lamda便因虚假的意识暗示而引发了广泛的争议。现在,谷歌的AI姊妹Deepmind希望避免能避免负面情况的发生,其正在研发的对话机器人Sparrow将提供更有用、正确和无害的答案。
Sparrow基于Deepmind的语言模型Chinchilla创建,该模型的参数相对较少,但使用大量数据进行过训练。
与Meta的聊天机器人Blender 3或谷歌Lamda类似,Sparrow可以访问互联网,特别是谷歌搜索,这应该会提高答案的正确性。此外,Sparrow在训练过程中依赖于人类反馈,这类似于OpenAI基于GPT-3的指令GPT模型。OpenAI将训练过程中的人类反馈视为根据人类需求调整AI的基本部分。这样,Sparrow将谷歌的Lamda和Meta的Blender 3的外部验证机制与OpenAI的InstructionGPT的人工反馈方法结合在了一起。
Deepmind在Sparrow中实施了一套规则,使聊天机器人不能进行威胁或侮辱,也不能冒充人。这些规则部分是根据与专家的对话以及关于有害言论的研究制定的。测试人员被要求让聊天机器人打破这些规则,而基于这些对话,Deepmind随后训练了一个规则模型,使可能的违规可以被识别和避免。
“我们在Sparrow上的目标是建立灵活的机制,以在对话代理中执行规则和规范,但我们使用的特定规则是初步的,”Deepmind解释说,开发一套更好、更完整的规则需要许多专家就诸多主题、广泛的用户和受影响的群体提供意见。

在最初的测试中,Deepmind让测试人员对Sparrow的答案的可信度以及互联网上研究的证据是否支持这些答案进行评级。在78%的案例中,测试对象将Sparrow对事实问题的回答评为合理的。
然而,该模型也不能免于歪曲事实并给出偏离主题的答案。此外,Sparrow在8%的测试对话中打破了规则。
根据Deepmind的说法,Sparrow是一个研究模型和概念证明。其发展目标是更好地了解如何训练更安全、更有用的代理。Deepmind称,这将有助于开发更安全、更有用的通用人工智能(AGI)。
“未来,我们希望人与机器之间的对话能够更好地判断人工智能的行为,让人们能够调整和改进可能过于复杂而无法在没有机器帮助的情况下理解的系统。”【编译自the-decoder】