加州大学伯克利分校的研究人员经过对ChatGPT、GPT-4和 BERT 等大型语言模型的背书能力进行测试,发现语言模型更能记住更知名和更受欢迎的书籍:一本书的内容在网上被搜索道的次数越多,语言模型就越能记住它。研究人员指出,语言模型在下游任务中的表现取决于书籍的受欢迎程度,这无疑将会导致文化分析出现偏差。
根据这项研究,OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括 《1984》、《德古拉》和《弗兰肯斯坦》等经典作品,以及《哈利·波特与魔法石》等近期作品。
研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4 进行了比较,因为前者的训练数据是已知的。令他们惊讶的是,在一套据称由未知作者创作的免费书籍的训练集“BookCorpus”中包括丹·布朗的作品和E·L·詹姆斯《五十度灰》等,均被BERT记住了,因为它们是训练数据的一部分。研究人员写道,这意味着一本书在网络上出现的次数越多,大型语言模型对它的记忆就越详细。

他们使用 ChatGPT 和 GPT-4 必须完成的不同占位符提示来测试语言模型的记忆,结果发现记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知,语言模型就越有可能成功地执行诸如确定出版年份或正确识别书中字符等任务。
在这项研究中,研究人员主要关注的是使用大规模语言模型进行文化分析的潜在机会和问题,特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。
根据研究结果,研究人员指出,文化分析研究可能会受到大规模语言模型的严重影响,并且根据训练材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。为此,他们建议,公开训练数据以提高透明度,并提高语言模型在文化分析中的实用性。