创新背景
目前,自然语言处理中,有三种特征处理器:卷积神经网络、递归神经网络和后起之秀 Transformer。
Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出,并用于机器翻译任务,和以往网络架构有所区别的是,该网络架构中,编码器和解码器没有采用 RNN 或 CNN 等网络架构,而是采用完全依赖于注意力机制的架构。准确地讲,Transformer 仅由自注意力和前馈神经网络组成。
创新过程
Meta AI、美国哥伦比亚大学、多伦多大学等的研究人员完成了一个关于深度学习模型和人脑之间相似性的研究。
研究发现,AI模型Wav2Vec 2.0与人类大脑处理语音的方式非常相似,甚至AI也像人类一样,对“母语”有更强的辨别能力,如法语模型就比英语模型更容易感知来自法语的刺激。
研究人员发布的演示视频中展示了AI模型与人脑相互对应的结构:听觉皮层与Transformer的第一层(蓝色)最吻合,而前额叶皮层则与Transformer的最深一层(红色)最吻合。
AI模型Wav2Vec 2.0 接受了600小时的语音训练,这大致相当于新生儿在语言习得的早期阶段所接触的内容。研究人员将此模型与412名志愿者(351名说英语、28名说法语和33名说中文普通话的人)的大脑活动进行比较。
科学家让参与者听一小时自己母语的有声小说,然后对他们的大脑做功能性磁共振成像 (fMRI) 纪录。研究人员将这些大脑活动与Wav2Vec 2.0模型的每一层以及几个变体进行比较,包括随机(未经训练的)Wav2Vec 2.0 模型、在600小时非语音上训练的模型、在600小时非母语语音上训练的模型、在600小时母语训练的模型和直接在参与者母语的语音到文本(speech-to-text)上训练的模型。
研究发现Wav2Vec 2.0使用自监督学习来获取语音波形时的表现类似于在人类大脑中看到的。其次,Transformer层的功能层次与大脑中语音的皮层层次相吻合,这以前所未有的细节揭示了语音处理的全脑排列。第三,该模型对听觉、语音和语言的表征与人脑的表征趋同。第四,对模型与另外386名人类参与者进行的语音辨别练习行为比较表明一种共同的语言专业化。
这些实验结果证明了,600小时的自监督学习就足以产生一个在功能上等同于人脑语音感知的模型。Wav2Vec 2.0学习到语言特定表征的所需的材料与婴儿学说话过程中接触到的“数据量”相当。
创新价值
本项研究将机器学习与人类大脑活动之间进行比较,表明在语音方面接受自监督学习训练的Transformer分层活动与人类听觉皮层活动之间存在一定关联性。为了解大脑的运作方式和改进机器学习提供了新思路。
智能推荐
人工智能+古文字学 | 人工智能帮助研究古文字文本
2022-07-28将人工智能运用于古文字学领域,帮助重建古老的文字文本,探索人类的历史文明。
涉及学科涉及领域研究方向AI+物理学 | 深化算法模拟电离辐射,开发新防辐射玻璃
2022-06-30使用新材料并深化算法开发优质性能的防辐射玻璃。
涉及学科涉及领域研究方向反思可解释性方法,深入探索机器学习的原理
2022-07-23从可解释性方法的角度探索机器学习模型的工作准确性,拓展人工智能研究使用的注意事项。
涉及学科涉及领域研究方向AI+癌症治疗 | 以色列理工学院开发智能工具治疗癌症
2022-09-02通过测量肿瘤突变负担和RNA分子,创新使用机器学习算法开发匹配癌症患者状况的免疫治疗方案。
涉及学科涉及领域研究方向