spot_img
首页AI技术自监督学习能解释人类...

自监督学习能解释人类语言处理吗?一项新研究得出肯定的结论

自监督学习可以解释人类的语言处理吗?Meta的一项新研究将 Wav2Vec 算法与 fMRI 扫描进行比较,得出了肯定的结论。

自监控训练的 AI 模型正在接近或已经达到人类的表现,例如在物体识别、翻译或语音识别方面。一些研究表明,这些算法的至少某些表示与人类大脑的表示相关。一个例子是GPT 模型中间层的神经活动可以在文本或口语的消费过程中映射到大脑。来自神经网络更深层的活动可以转化为合成 fMRI 图像(功能性磁共振成像),并与人的真实图像进行比较。

在最近的一篇题为《基于自监督学习的真实大脑语音处理模型》(Toward a realistic model of speech processing in the brain with self-supervised learning)预印论文中,Meta的研究团队表明,可以根据 GPT-2对相同故事的激活来预测大脑对语言的反应。

“受试者理解故事越好,GPT-2 就能更好地预测他们的大脑活动。”巴黎高等师范学院的 CNRS 研究员和 Meta AI 研究员 Jean-Remi King 说。

然而,像 GPT-2 这样的模型在有些方面与大脑有很大的不同。例如,AI模型需要大量数据进行训练,并且依赖文本而不是原始传感器数据。而大多数人需要用好几辈子的时间才能阅读用于训练 GPT-2 的 40 GB 纯文本。因此,AI模型仅部分适用于用来更好地了解人脑——这是King 领导的研究小组的目标之一。以这种方式获得的知识也应该能够实现更好的人工智能。

目前努力的重点是语言习得的基础。“人们,尤其是儿童,能非常有效地学习语言。您可以用极少的数据快速学习。能做到这一点,是因为他们拥有一种我们目前不知道的特殊能力。”King说。

现在,在新的研究中,King 和他的团队正在研究 Wav2Vec 算法是否可以揭示这种特殊能力。

Wav2Vec 2.0 是一种具有上游卷积层的混合变压器模型,使用音频数据进行自我监督训练,并学习记录语音波形的潜在表示。Meta 研究小组使用该系统及其前身Wav2Vec进行自我监督学习语音识别、翻译或语音生成。

King 和他的团队将经过 600 小时录音训练的 Wav2Vec 模型与 417 人听有声读物的 fMRI 录音进行比较。研究人员称,这 600 小时大致相当于幼儿在早期语言习得过程中听到的口语数量。实验表明,自我监督学习足以让 Wav2Vec 等 AI 算法学习类脑表示。

在这项研究中,研究人员表明,大多数大脑区域与响应相同语言输入的算法激活显著相关。此外,算法学习的层次结构与大脑的层次结构相对应。例如,听觉皮层最适合与第一变压器层协调,而前额叶皮层与最深层最匹配。

凭借另外 386 名测试对象的 fMRI 数据(这些受试者必须在没有语言参照的情况下辨别外语和母语中的声音),研究人员还表明,从模型中学习到的听觉、言语和语言特定表示与人类大脑相关。

King说,模拟人类水平的智能还有很长的路要走,但自监督算法中类脑功能的出现表明,人工智能研究正走在正确的轨道上。【编译自mixed.de 原文作者:Maximilian Schreiner】

专栏
赞赏
本文系反讽机器原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

欢迎订阅我们的内容