类比在常识推理中起着至关重要的作用。识别类别的能力,比如“眼睛看什么,耳朵听什么”,塑造了人类对知识的构建和对语言的理解。英国卡迪夫大学的一项新的研究使用来自教育界和一些常见的数据集的基准数据,以考察人工智能模型是否能够理解和掌握类比。研究发现,语言模型理解类比非常困难,但可以在给定适当的训练数据的情况下学会完成类比任务。

论文《BERT对于NLP就像AlexNet对于CV:预先训练的语言模型能识别类比吗?》(BERT is to NLP what AlexNet is to CV:Can Pre-Trained Language Models Identify Analogies?)描述了研究人员的研究过程和结论。基于上述发现,论文还讨论了AI模型在多大程度上能够捕获知识的问题。

大型语言模型通过内化来自公共网络的数十亿个例子来学习编写类似人类的文本。它们根据电子书、维基百科和社交媒体平台等资源,推断出完整的句子甚至整个段落。但研究表明这种训练方法存在缺陷。即使是像OpenAI的GPT-3这样复杂的语言模型,也会纠结于诸如道德、历史和法律等微妙的话题,而且往往会记住它们接受训练的数据中的答案。

记忆并不是大型语言模型面临的唯一挑战。最近的研究表明,即使是最先进的模型也很难正确解答大部分的数学问题。例如,美国加州大学伯克利分校的研究人员发表的一篇论文指出,包括GPT-3在内的大型语言模型在超过12500个数据集中只能回答2.9%到6.9%的问题。

卡迪夫大学的研究人员使用了一个来自教育资源的测试数据集,其中包括有关语言和认知能力评估的类比问题。问题的一个子集被设计成类似于学术能力倾向测试(SAT)的类比问题,而另一组问题的难度类似于研究生入学考试(GRE)的问题。为了全面起见,研究人员将数据集与来自谷歌和BATS的类比语料库相结合,其中包括大量的概念和关系,分为四类:词典式、百科式、派生式形态学和屈折式形态学。

词语类比问题的设计具有挑战性。解决这些问题需要识别属于同一关系的词对之间的细微差别。

在实验中,研究人员测试了基于转换器架构的三种语言模型,包括谷歌的BERT,、Facebook的RoBERTa和GPT-3的前身GPT-2。结果表明,有难度的类比问题是一个主要障碍,这些问题通常较抽象或包含晦涩的单词(例如:粗鲁,残酷,宫殿,华丽)。尽管这些模型可以理解类比,但并不是所有的模型都实现了“有意义的改进”。

研究人员提出了一种可能性,即语言模型可以在所给定的适当的训练数据的情况下学会完成类比任务。“研究结果表明,虽然基于转换器的语言模型在一定程度上学习了相关知识,但需要更多的工作来理解这些知识是如何编码的,以及如何利用这些知识,”研究论文写道。“经过仔细的调整,一些语言模型能够达到最先进的结果。”【编译自venturebeat.com 原作:Kyle Wiggers】