创新背景

目前，自然语言处理中，有三种特征处理器：卷积神经网络、递归神经网络和后起之秀 Transformer。
Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出，并用于机器翻译任务，和以往网络架构有所区别的是，该网络架构中，编码器和解码器没有采用 RNN 或 CNN 等网络架构，而是采用完全依赖于注意力机制的架构。准确地讲，Transformer 仅由自注意力和前馈神经网络组成。

创新过程

Meta AI、美国哥伦比亚大学、多伦多大学等的研究人员完成了一个关于深度学习模型和人脑之间相似性的研究。
研究发现，AI模型Wav2Vec 2.0与人类大脑处理语音的方式非常相似，甚至AI也像人类一样，对“母语”有更强的辨别能力，如法语模型就比英语模型更容易感知来自法语的刺激。

研究人员发布的演示视频中展示了AI模型与人脑相互对应的结构：听觉皮层与Transformer的第一层（蓝色）最吻合，而前额叶皮层则与Transformer的最深一层（红色）最吻合。

AI模型Wav2Vec 2.0 接受了600小时的语音训练，这大致相当于新生儿在语言习得的早期阶段所接触的内容。研究人员将此模型与412名志愿者（351名说英语、28名说法语和33名说中文普通话的人）的大脑活动进行比较。

科学家让参与者听一小时自己母语的有声小说，然后对他们的大脑做功能性磁共振成像 (fMRI) 纪录。研究人员将这些大脑活动与Wav2Vec 2.0模型的每一层以及几个变体进行比较，包括随机（未经训练的）Wav2Vec 2.0 模型、在600小时非语音上训练的模型、在600小时非母语语音上训练的模型、在600小时母语训练的模型和直接在参与者母语的语音到文本（speech-to-text）上训练的模型。

研究发现Wav2Vec 2.0使用自监督学习来获取语音波形时的表现类似于在人类大脑中看到的。其次，Transformer层的功能层次与大脑中语音的皮层层次相吻合，这以前所未有的细节揭示了语音处理的全脑排列。第三，该模型对听觉、语音和语言的表征与人脑的表征趋同。第四，对模型与另外386名人类参与者进行的语音辨别练习行为比较表明一种共同的语言专业化。

这些实验结果证明了，600小时的自监督学习就足以产生一个在功能上等同于人脑语音感知的模型。Wav2Vec 2.0学习到语言特定表征的所需的材料与婴儿学说话过程中接触到的“数据量”相当。

创新价值

本项研究将机器学习与人类大脑活动之间进行比较，表明在语音方面接受自监督学习训练的Transformer分层活动与人类听觉皮层活动之间存在一定关联性。为了解大脑的运作方式和改进机器学习提供了新思路。

智能推荐

AI+医学影像学 | 结合硬件创新和机器学习算法可揭示大脑的飞速活动
2022-09-28
杜克大学的生物医学工程师开发了一种方法，可以实时扫描和成像小鼠大脑内的血流和氧气水平，其分辨率足以同时查看单个血管和整个大脑的活动。
涉及学科
涉及领域
研究方向
反思可解释性方法，深入探索机器学习的原理
2022-07-23
从可解释性方法的角度探索机器学习模型的工作准确性，拓展人工智能研究使用的注意事项。
涉及学科
涉及领域
研究方向
人工智能+古文字学 | 人工智能帮助研究古文字文本
2022-07-28
将人工智能运用于古文字学领域，帮助重建古老的文字文本，探索人类的历史文明。
涉及学科
涉及领域
研究方向
机器人工程创新 | 融合了力觉反馈和视觉监控的咽拭子采样机器人
2022-06-28
山东烟台清科嘉研究院和清华大学研究团队共同研发的第三代咽拭子采样机器人问世，该系列机器人可自动进行力觉反馈和视觉监控,采样过程全自动,降低感染风险,有效解决人手不足问题，并实现信息上“云”,支持后台实时查询核酸检测数据。
涉及学科
涉及领域
研究方向

通过自监督学习实验发现AI模型与人脑的相似性

创新背景

创新过程

创新价值

智能推荐

AI+医学影像学 | 结合硬件创新和机器学习算法可揭示大脑的飞速活动

杜克大学的生物医学工程师开发了一种方法，可以实时扫描和成像小鼠大脑内的血流和氧气水平，其分辨率足以同时查看单个血管和整个大脑的活动。

反思可解释性方法，深入探索机器学习的原理

从可解释性方法的角度探索机器学习模型的工作准确性，拓展人工智能研究使用的注意事项。

人工智能+古文字学 | 人工智能帮助研究古文字文本

将人工智能运用于古文字学领域，帮助重建古老的文字文本，探索人类的历史文明。

机器人工程创新 | 融合了力觉反馈和视觉监控的咽拭子采样机器人