创新背景
华为诺亚实验室隶属于华为中央研究院,是华为公司专门从事人工智能研究与能力构建的实验室,包括计算机视觉,语音语义,推荐搜索,决策推理,AI基础理论等。
在计算机视觉领域中,骨干网络一直是特征提取的重要部件。从 AlexNet 到 ResNet,卷积网络 CNN 在很长一段时间内一直是视觉任务的标配。近年来,基于注意力机制的 Transformer 和以全连接层为主的 MLP 网络也开始在计算机视觉领域崭露头角。与现有主流 CNN 模型相比,基于 Transformer 或 MLP 的模型在视觉任务上也显示出了良好的性能。直到现在,关于谁是更好的视觉骨干网络还是一个仍在探索和颇具争议的课题。
创新过程
华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG。在 ImageNet 图像识别任务中,ViG 在相似计算量情况下 Top-1 正确率达 82.1%,高于 ResNet 和 Swin Transformer。
为了更好地对图像进行表示,本文提出用图结构(Graph)来对图像进行解析。将图像切分成若干图像块,每个图像块视作一个节点来构建图结构。进而提出用图神经网络进行图像识别等任务,首次构建了视觉GNN,简称 ViG。
直接使用原始 GNN 在图像任务会有过平滑的问题,也就是随着网络的加深,节点特征之间会越来越相似。为了缓解这个问题,ViG 引入前馈神经网络 FFN 模块来增强特征变换能力和特征多样性。通过基础的图卷积模块和 FFN 模块,作者构建了 isotropic 式和金字塔式的 ViG 网络架构。在 ImageNet 基准测试和下游任务上的实验表明了该方法在视觉任务方面的优越性。例如, Pyramid ViG-S 仅用 4.5G FLOPs 就达到了 82.1% 的 ImageNet top-1 正确率,这比计算量相近的 Swin Transformer 和 ResNet 都要高出不少。
方法
用图结构表示图像
图像预处理主要是将 2D 图像转化为一个图结构。图像首先被均匀切分成若干个图像块,每个图像块通过简单的映射转化为特征向量。这里每个图像块特征视作一个节点,也就是,对于每个节点,作者找到它的 K 近邻,然后在两者之间连接一条边,从而构建出一个完整的图结构。
图卷积
图卷积层通过聚集相邻节点的特征,可以在节点之间交换信息。具体而言,图卷积操作如下: 其中 Aggregate 聚合操作通过聚合相邻节点的特征来计算节点的表示,Update 更新操作用来更新聚合后的节点特征。在实际部署时,作者使用了 max-relative 图卷积。
增强节点多样性
直接堆叠图卷积构建视觉图网络的话,由于图像块存在相似性和图卷积的聚合机制,会出现节点过平滑的现象,也就是随着网络的加深,节点特征之间会越来越相似。如下图 3 所示,原始 ResGCN 在图像识别任务上,节点特征多样性会逐渐丧失。为了缓解这个问题,ViG 引入前馈神经网络 FFN 模块以及更多线性变换来增强特征变换能力和特征多样性,更具体的理论证明可以参考原文的附录。
作者在图卷积之前和之后应用一个线性层,将节点特征投影到同一个域中,并增加特征的多样性。在图卷积后插入一个非线性激活函数,以避免多层退化为单层。升级后的模块称为 Grapher 模块:
为了进一步提高特征变换能力和缓解过度平滑现象,在每个节点上使用前馈网络(FFN)。FFN 模块是一个简单的多层感知器,具有两个完全连接的层:
通过 Grapher 模块和 FFN 模块的堆栈构成 ViG 块,ViG 块用作构建网络的基本构建单元。基于图像的图形表示和提出的 ViG 块,可以为视觉任务构建 ViG 网络,如图 2 所示。与 vanilla ResGCN 相比,所述 ViG 可以随着层的加深保持特征多样性,从而学习更有判别性的特征表示。
ViG 网络架构
通过堆叠 L 个 ViG block,构成作者的 ViG 网络结构。作者给出了 isotropic 式和金字塔式两种网络架构,如下表所示。
实验
而后,研究团队将基于图神经网络的 ViG分别与Isotropic 和Pyramid 架构进行比较实验,实验结果表明,ViG 的表现能够媲美甚至超越其他的基于 CNN、transformer、MLP 的 Isotropic和Pyramid模型。这表明,图形神经网络能够很好地处理视觉任务,有可能成为计算机视觉系统的基本组成部分。
为了验证 ViG 的泛化能力,作者在 ImageNet 上训练的 Pyramid ViG-S 模型迁移到 COCO 目标检测任务。在 RetinaNet 和 Mask RCNN 检测框架上,使用 ViG 作为骨干网络提取图像特征。下表比较了 ViG 与 ResNet、Swin Transformer 和其他网络的迁移学习结果。ViG 整体上都由于其他网络,显示出了较强的泛化能力。
创新关键点
在这项工作中,作者研究了如何将图像表示为图结构数据,并利用图形神经网络进行视觉任务。作者将图像分割为多个图像块,并将其视为节点。基于这些节点构造图可以更好地表示不规则、复杂的物体。直接在图像的图结构上使用图卷积存在过平滑问题,性能较差。作者在每个节点内部引入更多的特征变换,以鼓励信息的多样性。基于图像的图表示和改进的 ViG block,作者构建了具有各向同性和金字塔结构的视觉 GNN(ViG)网络。大量的图像识别和目标检测实验证明了该 ViG 结构的优越性。这项有关 Vision GNN 的开创性工作或许可以作为一般视觉任务的基本架构。
智能推荐
AI+教育创新思维 | 人工智能结合教师培训,自适应反馈帮助识别学习困难人群
2022-07-28结合人工智能和职前教师培训,帮助学习者发现自己的学习困难并增加实践机会。
涉及学科涉及领域研究方向人工智能创新思维 | 通过重新实现和集成分页在边缘设备上训练神经网络
2022-07-26UC 伯克利的几位研究者提出了一种用于深度神经网络的图形级编译器——PORT,它重写了大型模型的训练 DAG以适应边缘设备的内存限制,同时保持高能效,通过重新实现和分页,达到了以最小的能耗扩展有效的内存容量的效果。
涉及学科涉及领域研究方向