霸榜多个CV任务，开源仅两天，微软分层ViT模型收获近2k star

屠榜各大 CV 任务的微软 Swin Transformer，近日开源了代码和预训练模型。

自 2017 年 6 月谷歌提出 Transformer 以来，它便逐渐成为了自然语言处理领域的主流模型。最近一段时间，Transformer 更是开启了自己的跨界之旅，开始在计算机视觉领域大展身手，涌现出了多个基于 Transformer 的新模型，如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此，「Transformer 是万能的吗？」也一度成为机器学习社区的热门话题。

不久前，微软亚研的研究者提出了一种通过移动窗口（shifted windows）计算的分层视觉 Transformer，他们称之为 Swin Transformer。相比之前的 ViT 模型，Swin Transformer 做出了以下两点改进：其一，引入 CNN 中常用的层次化构建方式构建分层 Transformer；其二，引入局部性（locality）思想，对无重合的窗口区域内进行自注意力计算。

论文链接：https://arxiv.org/pdf/2103.14030.pdf

首先来看 Swin Transformer 的整体工作流，下图 3a 为 Swin Transformer 的整体架构，图 3b 为两个连续的 Swin Transformer 块。

该研究的亮点在于利用移动窗口对分层 Transformer 的表征进行计算。通过将自注意力计算限制在不重叠的局部串口，同时允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模，并具有图像大小的线性计算复杂度。下图 2 为在 Swin Transformer 架构中利用移动窗口计算自注意力的工作流：

模型本身具有的特性使其在一系列视觉任务上都实现了颇具竞争力的性能表现。其中，在 ImageNet-1K 数据集上实现了 86.4% 的图像分类准确率、在 COCO test-dev 数据集上实现了 58.7% 的目标检测 box AP 和 51.1% 的 mask AP。目前，在 COCO minival 和 COCO test-dev 两个数据集上，Swin-L（Swin Transformer 的变体）在目标检测和实例分割任务中均实现了 SOTA。

此外，在 ADE20K val 和 ADE20K 数据集上，Swin-L 也在语义分割任务中实现了 SOTA。

开源代码和预训练模型

Swin Transformer 论文公开没多久之后，微软官方于近日在 GitHub 上开源了代码和预训练模型，涵盖图像分类、目标检测以及语义分割任务。上线仅仅两天，该项目已收获 1900 星。

项目地址：https://github.com/microsoft/Swin-Transformer

首先图像分类任务，Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ImageNet-1K 和 ImageNet-22K 数据集上的准确率结果如下：

其次目标检测任务：Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 COCO 目标检测（2017 val）数据集上的结果如下：

最后语义分割任务：Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ADE20K 语义分割（val）数据集上的结果如下。目前，Swin-L 取得了 53.50% 的 SOTA 验证 mIoU 分数。

工程Transformer计算机视觉微软

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

语义分割技术

语义分割,简单来说就是给定一张图片，对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。

来源：CSDN博客

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/