spot_img
首页文本AIOpenAI推出聊天...

OpenAI推出聊天机器人ChatGPT,希望通过用户反馈开发更好的AI系统

OpenAI发布了聊天机器人ChatGPT的测试版,希望通过用户反馈以开发更好的AI系统。ChatGPT以OpenAI的新语言模型GPT-3.5为基础,经过了基于人类反馈的强化学习(RLHF)训练,RLHF已被证明可以生成更好的文本。

对于ChatGPT的训练,OpenAI使用了与InstructGPT相同的方法,但还收集了在对话过程中人类和AI助手双方的数据。据OpenAI介绍,AI训练师可以获得模拟建议,以帮助他们回答问题。

对于强化学习奖励模型,OpenAI记录了AI训练师和聊天机器人之间的对话。然后,该团队随机选择具有不同自动完成功能的AI生成的响应,并让训练师对其进行评分。为了进行微调,OpenAI 使用了近端策略优化。该过程运行了多次。

大型语言模型的常见问题也出现在ChatGPT上。该模型有时会产生看起来合理但不正确甚至荒谬的响应。同样的问题曾引起研究人员对Meta 的科学模型Galactica的强烈批评。OpenAI称,这是一个重大挑战,因为没有单一的事实来源,过于谨慎的训练模型会拒绝问题,而在监督训练中,理想的答案取决于模型的知识而不是人类演示者。

对提示的微小改动会引起ChatGPT 做出强烈反应。根据输入的不同,它可能无法回答问题,作出错误或正确的回答。此外,ChatGPT过于啰嗦,爱重复使用短语,这是过度优化和人类导师的偏见导致的——他们更喜欢在人类反馈过程中获得更详细的答案。

另外,ChatGPT 不会通过查询来回应不明确的陈述,而是会尝试猜测用户的意图。该模型有时会响应不适当的请求,而不是拒绝它们。对此,OpenAI 将尝试使用其审核 API 来拒绝不符合其内容策略的请求。OpenAI写道:

我们知道,如上所述,仍存在许多限制,我们计划定期更新模型以改进这些方面。但我们也将通过提供一个可访问的ChatGPT接口,我们希望获得有关我们尚未意识到的问题的宝贵的用户反馈。

ChatGPT可以通过OpenAI帐户免费获得。根据OpenAI联合创始人Sam Altman的说法,这是“可能性的早期演示”。他预计像ChatGPT这样的模型有朝一日会成为日常与计算机交互的重要角色。

专栏
赞赏
lighting
lighting
新的开始
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容