OpenAI 为 GPT-3 推出了新的语言模型“text-davinci-003”,该模型使用基于人类反馈的强化学习(RLHF)进行训练,能生成更清晰、更引人入胜的内容,还可以处理更复杂的指令并撰写更长的文本。
使用RLHF训练的AI模型可以在相同甚至更低的参数下获得更好的结果。text-davinci-003基于OpenAI今年早些时候推出的InstructGPT模型,该模型根据人类反馈进行了优化。OpenAI研究员Jan Leike称,text-davinci-003 “在人类偏好评级上得分更高,且在根本上比基础模型更有能力”。Leike也指出了新的GPT模型仍然存在“重要的局限性”,例如,有时会胡编乱造一些东西,但他表示这种失误现在应该有希望不那么频繁和不那么严重。
OpenAI 于 2019 年 9 月首次推出基于 GPT-2 的人类反馈训练流程。这家人工智能公司认为,人工智能训练过程中的人类反馈,以及人工智能与人类需求的一致性,是人类友好型AI的基础。
随着text-davinci-003的诞生,OpenAI接下来可能会推出GPT-4。OpenAI目前正在运行一项资助计划,该计划的第一批参与者可能有机会最先访问GPT-4。OpenAI联合创始人Wojciech Zaremba在9月份描述了GPT-4的潜在新功能。他认为,人工智能将对人类交流产生与互联网类似甚至更大的影响。