让人工智能实现自我提升的方法有很多。一项新的研究表明,大型语言模型(LLM)可以用自己的推论进行微调以实现自我改进,从而胜任更专业化的任务。
大型语言模型可以执行诸多普适性的任务,而使用特定数据对其进行的微调则有助于使其适应特定任务。通过这种方法,可以从大型语言模型中抽离出专门的语言系统。虽然所需的训练资源相比训练原模型的资源密度要低得多,但这仍然需要一些人工工作,例如,准备数据。
由伊利诺伊大学厄巴纳-香槟分校和谷歌的研究人员组成的团队的做法是,将大型语言模型输出问题的答案作为思维链提示来自动生成训练数据。
研究过程中,该团队让谷歌的大型语言模型PaLM生成一系列问题的答案来作为思维链,接下来使用多数投票方法筛选出最一致的答案,之后使用以这种方式筛选的响应作为微调模型的数据。
研究人员称这种方法为“自我一致性”。他们在论文中写道:
这与人类大脑有时的学习方式类似:给定一个问题,多次思考以得出不同的可能结果,得出问题应该如何解决的结论,然后从中学习或记住自己的解决方案。
研究人员表示,错误答案在微调中可能产生的影响很小:如果一个答案有更一致的思维链,它更有可能是正确的。相反,不正确的答案可能几乎没有一致的思维链,因此不会对模型在微调方面的性能产生重大影响。
在六个机器推理基准测试中,使用自我生成的推理进行微调的语言模型实现了 1.1% 到 7.7% 的改进。在ARC,OpenBookQA和ANLI基准测试中,这种微调取得了新的最高分。
使用自生成的未标记数据集的语言模型的性能改进表明,系统可以在不对架构进行根本性更改的情况下,通过相对简单的方法实现更好的性能。下一步,研究人员计划将自我生成与标记数据相结合,以进一步提高LLM的性能。