将大核卷积分三步,清华胡事民南开程明明

                            

机器之心报道

编辑:小舟、杜伟

来自清华大学和南开大学的研究者提出了一种新型大核注意力(largekernelattention,LKA)模块,并在LKA的基础上构建了一种性能超越SOTA视觉transformer的新型神经网络VAN。

作为基础特征提取器,视觉骨干(visionbackbone)是计算机视觉领域的基础研究课题。得益于卓越的特征提取性能,CNN成为过去十年中不可或缺的研究课题。在AlexNet重新开启深度学习十年之后,通过使用更深的网络、更高效的架构、更强的多尺度能力,社区已取得多项突破以获得更强大的视觉骨干和注意力机制。由于平移不变性和共享滑动窗口策略,CNN对于具有任意大小输入的各种视觉任务是有效的。更先进的视觉骨干网络通常会在各种任务中带来显著性能提升,包括图像分类、对象检测、语义分割和姿势估计。

同时,选择性注意力是处理视觉中复杂搜索组合的重要机制。注意力机制可以看作是基于输入特征的自适应选择过程。自从提出完全注意力网络以来,自注意力模型(即Transformer)迅速成为了NLP领域的主导架构。近年来,Dosovitskiy等人提出ViT,它将transformer骨干引入计算机视觉,并在图像分类任务上优于CNN。得益于强大的建模能力,基于transformer的视觉骨干迅速占领了各种任务的排行榜,包括对象检测和语义分割等。

尽管自注意力机制最初是为NLP任务而设计的,但近来已经席卷了计算机视觉领域。然而,图像的2D特性为在计算机视觉中应用自注意力带来了三个挑战:

将图像视为一维序列会忽略它们的二维结构;

二次复杂度对于高分辨率图像来说太昂贵了;

只捕捉空间适应性而忽略通道适应性。

近日,来自清华大学胡事民团队和南开大学程明明团队提出了一种新型大核注意力(largekernelattention,LKA)模块,在避免上述问题的同时实现了自注意力中的自适应和长距离相关性。该研究还进一步提出了一种基于LKA的新型神经网络,命名为视觉注意力网络(VAN)。在图像分类、目标检测、语义分割、实例分割等广泛的实验中,VAN的性能优于SOTA视觉transformer和卷积神经网络。

论文    



转载请注明地址:http://www.jiangzhitang.net/zbgn/20657.html
  • 上一篇文章:
  • 下一篇文章: 没有了