2022
07/28
相关创新主体

创新背景

目前,自然语言处理中,有三种特征处理器:卷积神经网络、递归神经网络和后起之秀 Transformer。
Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出,并用于机器翻译任务,和以往网络架构有所区别的是,该网络架构中,编码器和解码器没有采用 RNN 或 CNN 等网络架构,而是采用完全依赖于注意力机制的架构。准确地讲,Transformer 仅由自注意力和前馈神经网络组成。

 

创新过程

Meta AI、美国哥伦比亚大学、多伦多大学等的研究人员完成了一个关于深度学习模型和人脑之间相似性的研究。
研究发现,AI模型Wav2Vec 2.0与人类大脑处理语音的方式非常相似,甚至AI也像人类一样,对“母语”有更强的辨别能力,如法语模型就比英语模型更容易感知来自法语的刺激。

研究人员发布的演示视频中展示了AI模型与人脑相互对应的结构:听觉皮层与Transformer的第一层(蓝色)最吻合,而前额叶皮层则与Transformer的最深一层(红色)最吻合。

AI模型Wav2Vec 2.0 接受了600小时的语音训练,这大致相当于新生儿在语言习得的早期阶段所接触的内容。研究人员将此模型与412名志愿者(351名说英语、28名说法语和33名说中文普通话的人)的大脑活动进行比较。

科学家让参与者听一小时自己母语的有声小说,然后对他们的大脑做功能性磁共振成像 (fMRI) 纪录。研究人员将这些大脑活动与Wav2Vec 2.0模型的每一层以及几个变体进行比较,包括随机(未经训练的)Wav2Vec 2.0 模型、在600小时非语音上训练的模型、在600小时非母语语音上训练的模型、在600小时母语训练的模型和直接在参与者母语的语音到文本(speech-to-text)上训练的模型。

研究发现Wav2Vec 2.0使用自监督学习来获取语音波形时的表现类似于在人类大脑中看到的。其次,Transformer层的功能层次与大脑中语音的皮层层次相吻合,这以前所未有的细节揭示了语音处理的全脑排列。第三,该模型对听觉、语音和语言的表征与人脑的表征趋同。第四,对模型与另外386名人类参与者进行的语音辨别练习行为比较表明一种共同的语言专业化。

这些实验结果证明了,600小时的自监督学习就足以产生一个在功能上等同于人脑语音感知的模型。Wav2Vec 2.0学习到语言特定表征的所需的材料与婴儿学说话过程中接触到的“数据量”相当。

 

创新价值

本项研究将机器学习与人类大脑活动之间进行比较,表明在语音方面接受自监督学习训练的Transformer分层活动与人类听觉皮层活动之间存在一定关联性。为了解大脑的运作方式和改进机器学习提供了新思路。

智能推荐

  • 医学创新思维 | 癌细胞在睡眠期间加速分裂和转移扩散

    2022-07-02

    该研究发现了一个令人惊讶的现象:这种致命性的癌细胞转移,主要发生在睡眠期间。乳腺癌的转移扩散在睡眠期间会加速,而这是由决定昼夜节律的激素所调控的。这些发现将对乳腺癌等癌症的治疗产生重要影响。

    涉及学科
    涉及领域
    研究方向
  • 生物医学创新思维 | 益生菌疗法可有效改善重度抑郁症及伴随的胃肠道紊乱

    2022-07-02

    这项研究提供了三种益生菌联合治疗可以改善重度抑郁症患者的精神症状和共病胃肠道症状的证据。5-羟色胺能系统的调节是推动益生菌对大脑和肠道都有益的关键机制。这些发现为治疗抑郁症或其他“肠-脑轴”相关疾病提供了一种新颖而有前景的疗法,但还需要更大规模人群的研究来进一步确定特定益生菌疗法的临床用药指导。

    涉及学科
    涉及领域
    研究方向
  • 生物医学创新思维 | 通过操纵免疫系统对抗疾病

    2022-11-21

    近年来,莱顿的研究人员进一步开发使用免疫系统对抗疾病这种形式的免疫疗法。

    涉及学科
    涉及领域
    研究方向
  • 医学创新思维 | 研究揭示糖基化调控胰腺癌新机制

    2022-07-27

    该研究揭示了OGT-MDH1轴在PDAC发生和发展过程中的重要功能。鉴于MDH1在PDAC中高表达,且MDH1糖基化水平与PDAC进程呈正相关,该研究成果提示干预MDH1糖基化可以作为靶向PDAC的潜在策略。

    涉及学科
    涉及领域
    研究方向