商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ...

Yooxibala · 发表于 2022-7-20 13:15:15

Hi，大家好，我是LiteAI，持续分享边缘计算和轻量化神经网络技术的平台。今天分享一篇商汤&悉尼大学&东京大学&中科大提出的纯Transformer轻量级ViT，不使用以前工作中CNN+Transformer的方式，其通过在自注意力和FFN中使用全局特征聚合方法实现。其在分类、目标检测、实例分割任务上有显著改进。且在0.7GFLOPs下，在ImageNet实现78.7%的精度。文章为《LightViT：轻量级无卷积视觉Transformer》。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第1张图片

文章链接：https://arxiv.org/abs/2207.05557
项目链接：https://github.com/hunto/LightViT
由于缺乏归纳偏置，视觉Transformer（ViT）通常被认为不如CNN轻量化。因此，最近的工作将卷积作为一个即插即用模块，并将其嵌入各种ViT counterparts中。在本文中，我们认为卷积核执行信息聚合以连接所有tokens；然而，如果这种显式聚合能够以更均匀的方式发挥作用，那么对于轻量级ViT来说，它们实际上是不必要的。受此启发，我们提出LightViT作为一个新的轻量级ViT系列，以在没有卷积的纯Transformer块上实现更好的精度效率平衡。具体来说，我们在ViT的自注意力和前馈网络（FFN）中引入了一种全局但有效的聚合方案，其中引入了额外的可学习tokens来捕获全局依赖性；对tokens嵌入施加了二维通道和空间注意力。实验表明，我们的模型在图像分类、目标检测和语义分割任务方面取得了显著的改进。例如，我们的LightViT-T在ImageNet上仅用0.7G FLOPs就实现了78.7%的精度，比PVTv2-B0快8.2%，而在GPU上快11%。
以下为文章详细解读：
1 简介
最近，视觉Transformer（ViT）在视觉任务方面取得了显著的成功，如图像分类[6、20、27、29]、目标检测[16、20]和语义分割[25、35]。然而，尽管在大型ViT模型中具有SOTA性能，但与典型的卷积神经网络（CNN）相比，它们的轻量级counterparts将失去其优势。例如，观察到DeiT-Ti[29]和PVTv2-B0[31]在ImageNet上可以实现72.2%和70.5%的精度，而典型的CNN模型RegNetY-800M[22]以类似的FLOPs实现了76.3%的精度，这对于轻量级模型而言似乎是ViTs的灾难性失败。
人们认识到，CNN通常在其固有的偏置架构设计方面更有效，例如参数共享、局部信息聚合和空间缩减。因此，为了增强ViT的轻量化特性，最近的工作主要借鉴CNN的归纳偏置，以混合或异构的方式开发各种counterparts，即将卷积集成到Transformer块中作为即插即用模块。例如，ResT[41]提出利用卷积来减少自注意力中键和值的空间维度；LVT[36]采用卷积对低层特征进行局部自注意力，对高层特征进行多尺度注意力。此外，一些方法[21、24、33]旨在通过将自注意力解释为现有的CNN块来改进CNN。最近的一项研究MobileViT[21]将Transformer合并到MobileNet V2[23]中，以获得更上层的全局表示。
到目前为止，社区表明卷积似乎是高效ViT的关键。然而，对于轻量级的ViT，卷积真的有必要吗？难道我们不能有一个没有卷积但只有Transformer块的高效homogeneous ViT吗？在本文中，我们着手研究这个问题，并希望将轻量级ViT的限制进一步推高。通过在混合ViT中重新审视卷积，我们将其视为信息聚合的一种方式，因为它通过共享卷积核与所有tokens建立显式连接。通过这种方式，我们也受到启发，将这些聚合先验引入ViT，这激发了Transformer块中两个关键组件的新设计，即自注意力和前馈网络（FFN）：
• 对于自注意力，我们利用局部窗口注意力[20]实现有效的空间先验和高效计算。特别是，我们提出引入可学习的全局tokens，通过建模局部tokens的全局依赖性来聚合其信息。然后将这些全局依存关系广播到每个局部tokens中。通过这种方式，每个图像tokens可以提供更多信息，因为它同时受益于局部和全局特征，如图2（a）所示。也就是，它可以非常有效地计算全局依存关系。
• 对于FFN，作为plain Transformer块中唯一的非线性，它通过建模特征模式和隐式捕捉空间相关性在特征提取中发挥重要作用。然而，由于在轻量级模型中通道尺寸较小，其表示能力将受到限制。因此，我们提出了一个二维注意力模块来显式地聚合空间维度和通道维度之间的全局依赖关系，从而提高其能力，因为特征将被更自适应地过滤。
基于新的自注意力和FFN，我们还进行了实证研究，以提供更实用的高效ViT设计，这有助于我们实现更好的效率-准确性权衡。例如，我们观察到，由于自注意力中存在大量tokens，分层ViT的早期阶段效率低下，因此建议从中等维度（步长=8）构建ViT阶段，例如丢弃阶段0，如图3所示。因此，我们可以开发一个新的轻量级无卷积ViT家族，称为LightViT。大量实验表明，与各种计算机视觉基准相比，我们的LightViT确实具有显著的性能优势和效率优势。例如，如图1所示，我们的LightViT-S在ImageNet上实现了80.8%的准确率，在0.2G较小的FLOPs，显著优于ResT-Small[41]1.2%，推理速度加快14%。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第2张图片

图1 ImageNet上LightViT与其他高效ViT比较。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第3张图片

图2 文章提出的注意力和FFN中的高效特征聚合。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第4张图片

图3 LightViT架构。

2 相关工作
2.1 高效视觉Transformer
关于高效ViT的最新方法[30、31、41]主要侧重于将卷积解释为Transformer块。PVT[30]进行了类似CNN的层次结构，并采用卷积来减少自注意力的空间维度，并执行特征下采样。PVTv2[31]通过引入重叠patch嵌入和卷积前馈网络，进一步改进了PVT。ResT[41]通过压缩空间维度提出了一种高效记忆的自注意力，并使用卷积将交互作用映射到注意力头维度。LVT[36]在自注意力中引入卷积，以对低级特征执行局部自注意力，对高级特征执行多尺度注意力。与以前基于ViT结构构建的模型不同，MobileViT[21]旨在通过将注意力纳入MobileNetV2来改进移动CNN块以获得更好的全局表示。本文研究了一种新的高效ViT变体，它不需要在块中使用卷积。
2.2 基于窗口的视觉Transformer
尽管普通ViT在图像分类方面取得了成功，但对于下游任务来说仍然具有挑战性，因为在这些高分辨率任务中，计算成本将与图像大小成平方增长。最近的工作[3，20，30，31]采用多阶段的分层结构，如CNN，使ViT更高效，对现有框架更友好。在这些方法中，基于窗口的方法[3，20]采用局部窗口注意力将图像tokens划分为多个非重叠窗口，并在每个窗口内执行自注意力，从而产生图像大小的线性计算复杂度。
然而，已经观察到局部窗口注意力具有有限的感受野和弱的长距离依赖性。因此，一些方法建议将全局交互作用引入局部窗口注意力。Twins[3]将全局注意力应用于由卷积得到的图像tokens（查询）和窗口表示（键和值）。MSG-Transformer[7]在每个局部窗口上绑定可学习的信息tokens，并在这些tokens之间采用通道shuffle来交换信息。Focal Transformer[37]使用以不同步长采样的键和值来执行局部窗口注意力，从而聚合多个感受野上的信息。然而，这些全局信息聚合对于输入图像大小仍然具有二次计算成本，尤其是在大分辨率上，计算成本很高。在本文中，我们引入了全局tokens来在整个特征图上自由地聚合全局信息，该tokens对输入图像大小仅具有线性计算复杂度，并在可忽略的FLOPs增量的情况下带来了显著的改进。

3 LightViT的高效特征聚合
在本节中，我们正式说明了LightViT的两个关键设计，即聚合自注意力和FFN，它们分别利用局部-全局注意力广播和二维注意力。
3.1 使用局部-全局广播聚合自注意力
与局部卷积相比，所有tokens中的自注意力是ViTs的关键优势之一。然而，直接将自注意力应用于整个图像需要输入图像大小的二次计算复杂度。为了降低计算成本，典型的局部窗口自注意力[20]将特征映射划分为多个非重叠窗口，然后在每个窗口中独立执行自注意力。本文利用局部窗口自注意力作为基本模块。
局部自注意力。给定输入特征映射X∈ 商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第5张图片

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第5张图片

，并不计算flattened H×W patch上的注意力，而是将X划分为具有形状（

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第6张图片

）的非重叠窗口，其中S表示窗口大小（我们遵循Swin[20]，使用S=7），然后在每个局部窗口内应用自注意力，这相当于Swin和Twins中的局部窗口注意力。形式上，局部自注意力计算为

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第7张图片

其中，

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第8张图片

、

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第9张图片

和

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第10张图片

分别由Q、K和V映射产生。因此，自注意力的计算复杂度能由商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第11张图片

降低为（

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第12张图片

）×

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第13张图片

=H×W×S×S。
局部自注意力是一种利用窗口先验聚合局部依赖关系的有效方法。然而，它的缺点是缺乏长距离依赖性和较大的感受野。为了获得全局交互，本文提出首先将有价值的全局依赖关系聚合到一个小的特征空间，然后将聚合的全局信息广播到局部特征。这种light信息squeeze-and-expand方案可以在计算成本忽略不计的情况下增强局部特征，我们在实验中发现它是充分有效的。
全局聚合。为了在X中收集全局信息，我们提出了一种可学习的嵌入G∈ 商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第14张图片

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第14张图片

，与所有LightViT块中的图像tokens一起计算。提出的嵌入G被称为全局tokens，具有两个功能：全局信息聚合和广播。如图2（a）所示，它首先在整个图像特征图上聚合全局表示，然后将全局信息广播到特征图中。所有的信息交换都是使用注意力以同质的方式进行的。具体来说，在计算局部自注意力的同时，我们使用输入全局tokens G（查询）和图像tokens X（键和值）收集全局表示，即：

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第15张图片

然后在全局广播中使用输出的新tokens ˆG，并将其传递给下一个块以供使用。
全局广播。利用聚合的全局信息，目的是将其广播回图像tokens，因此可以通过从局部窗口外的tokens接收全局依赖性来增强图像特征。我们通过采用全局tokens ˆG作为注意力中的键和值来执行此广播：

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第16张图片

然后，通过对局部和全局特征进行元素相加来计算最终输出图像tokens，即：

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第17张图片

需要注意的是，全局聚合和全局广播（H×W×T）的计算复杂度可以忽略不计，因为全局tokens的数量T（例如，LightViT-T中的T=8）远小于LightViT中的图像大小H×W和窗口大小S×S。
我们将学习到的全局注意力可视化在图4中。我们可以看到，全局tokens首先通过我们的全局聚合来聚合特征图的关键信息（例如，狗的鼻子和眼睛），然后使用全局广播将信息传递给相关像素，因此可以使用全局信息增强和突出目标对象（例如，狗和船）的特征。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第18张图片

图4 ImageNet上LightViT-T可学习的全局注意力可视化。

3.2 具有二维注意力的聚合FFN
作为Transformer块中唯一的非线性部分，前馈网络（FFN）在特征提取中起着重要作用。由于所有tokens以point-wise进行前向，并在FFN中共享相同的线性层，因此非线性激活通常在线性层产生的扩大通道维度上进行，以实现充分获取特征模式的效果。然而，在轻量级模型中，通道维度仍然不够高效，为了降低计算成本，通道被限制到比较小，因此其性能受到严重限制。flattened FFN的另一个缺点是在空间级别上缺乏明确的依赖性建模，这对视觉任务非常重要。虽然可以通过tokens之间的权重共享隐式地执行空间特征聚合，但对于轻量级ViT来说，捕获这些表示仍然具有挑战性。为此，一些ViT变体[17、31、39]建议使用卷积在激活层之前聚合空间表示，从而显著增加计算成本。
在本文中，受注意力机制[10，32]的启发，我们提出了一个二维注意力模块来获取空间和通道依赖性，并细化特征。注意力机制[10，32]被广泛用于显式建模轻量级CNN中的特征关系[9，28]。如图2（b）所示，该模块由两个分支组成：通道注意力分支和空间注意力分支。通道注意力分支首先在空间维度上平均输入特征以聚合全局表示，然后使用线性变换计算通道注意力。对于空间注意力，我们通过将全局表示连接到每个token特征（局部表示）来建模像素级关系。为了减少FLOPs，我们遵循SE[10]，在注意力全连接（FC）层之前添加一个线性减少层，并在我们的模型中将减少比r设置为4。
我们提出的二维注意力模块可以用作现有ViT变体的即插即用模块。只需稍微增加计算成本，即可显式建模空间和通道关系，并提高FFN的表示能力。

4 高效LightViT的实用设计
在本节中，我们通过实验制定了LightViT的设计选择。我们实验发现，对模型组件的一些改进可以提高性能和效率，从而使我们的LightViT更高效。为了公平比较，我们通过在实验中均匀调整通道来保持相同的FLOPs。
4.1 具有较少阶段的层次结构
具有层次结构的视觉Transformer[20，30]在图像分类和下游任务方面表现出良好的性能。然而，与vanilla ViT相比，这些方法的推理速度较慢。例如，vanilla ViT模型DeiT-S以4.6G FLOPs在GPU上的吞吐量为961，而PVTv2-B2具有4.0G FLOPs，吞吐量只有695。一个主要原因是，在层次结构的早期阶段有更多的tokens，使自注意力效率较低。如图5（a）所示，我们测量了分层ViT的推理效率（速度/FLOPs），发现早期阶段的FLOPs效率低于后期阶段。因此，在本文中，我们删除了第一个步长=4阶段，并在层次结构中保留了后一个步长={8，16，32}阶段。下表中ImageNet和COCO检测的实验结果表明，我们的LightViT-T通过去除第一阶段实现了显著的效率提高，甚至达到了更高的精度。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第19张图片

在目标检测等下游任务中，通常采用4阶段特征金字塔网络（FPN）[18]。移除第一阶段可能有削弱迁移性能的风险。在本文中，我们表明，如图5（b）所示，直接采用3阶段FPN就足够了，并且与4阶段骨干相比，也可以实现具有竞争力的性能（见上表）。此外，最近的工作[1，16]还表明，普通ViT可以在下游任务上实现良好的性能，只需对FPN进行少量修改。
使用残差patch合并下采样。为了在分层ViT中进行特征下采样，两个常用的模块是stride-2卷积[30，31]和Swin中的线性patch合并[20]。在本文中，我们采用了一个patch合并模块，以提高效率，并在Transformer中采用更均匀的方式，另外还有一个廉价的残差分支，以获得更好的梯度流，如图5（c）所示。下表显示，我们的残差patch合并实现了略高的精度，而效率下降可以忽略不计。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第20张图片

重叠patch嵌入。以前的方法[31，34]表明，用重叠路径嵌入（OPE）替换plain ViT中的原始patch嵌入可以提高性能和训练鲁棒性。在本文中，我们还执行了OPE系统（见图3），并在ImageNet上获得了更高的性能，如下表所示。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第21张图片

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第22张图片

图5

4.2 架构变体
我们设计了一系列不同规模的LightViT模型，以验证我们在轻量级模型上的有效性。我们模型的宏观结构如图3所示。我们首先执行stem块，将输入图像嵌入到步长为8的图像tokens中，其中包括几个卷积层。对于我们的网络主体，我们构建了三个阶段（S1-S3），其中包含相同的LightViT块，并在S2和S3之前进行残差patch合并层，用于特征下采样。注意力窗口大小S设置为7，FFN中空间和通道注意力的减少比r设置为4。我们的变体的详细设置总结在表1中。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第23张图片

表1 LightViT架构变体。

5 实验
我们验证了提出的模型在各种视觉任务上的有效性：图像分类、目标检测、实例分割。
5.1 ImageNet上的图像分类
训练策略。我们在ImageNet-1K数据集[5]上训练我们的模型，并在ImageNet验证集上验证top-1精度。我们在ViT上采用常见的数据增强，包括随机增强[4]、混合[40]等。详细的策略见表2。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第24张图片

表2 ImageNet数据集训练设置。

实验结果。表3总结了我们在ImageNet验证集上的性能。在基本224×224分辨率下，LightViT优于最近的高效ViT，尤其是在轻量级尺度上有很大改进（低于2G FLOPs）。例如，LightViT-T在0.7G FLOPs下取得record 78.7%的准确率，显著优于那些具有注意力卷积混合块的ViT变体。此外，与现有高效ViT相比，我们的模型还获得了更高的吞吐量，并实现了更好的FLOPs-精度和延迟-精度权衡，如图1所示。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第25张图片

表3 ImageNet验证集图像分类性能。

5.2 目标检测和实例分割
训练策略。我们在MS-COCO数据集[19]上进行实验，并采用带FPN[18]neck的Mask R-CNN架构进行公平比较。由于LightViT只有三个阶段，我们对其进行了简单的修改，使其与现有架构兼容。如图5（b）所示，我们附加了一个步长为2的2×2转置卷积，以将自顶向下路径的最大输出增加采样到1/4的大小，形成4个阶段的金字塔。模型根据ImageNet预训练权重进行微调。我们使用AdamW[14]优化器进行训练，其超参数为：批量大小为16，学习率为1e−4，权重衰减为0.05，随机深度[11]比率为预训练中使用的比率。按照惯例，我们采用了与[20]相同的数据增强方案和mmdetection[2]的1×/3×训练计划，该计划共有12/36个训练周期，在总周期的3/4和11/12处，学习率衰减了10倍。这里使用COCO数据集的标准度量来评估性能，包括用于目标检测和实例分割的平均精度（AP）、AP50和AP75。
实验结果。我们在表4中报告了MS-COCO数据集的结果。LightViT的性能与最近的4阶段ViT相当，具有相似的FLOPs。具体来说，LightViT-S使用1×调度实现了40.0%的APb和37.4%的APm，这优于∼200 GFLOPs混合方法PVT-T。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第26张图片

表4 COCO val2017目标检测和实例分割性能。

5.3 消融研究
注意力和FFN中聚合方案的消融实验。在LightViT中，我们改进了vanilla局部窗口自注意力，增加了全局表示的全局注意力。在FFN中，我们提出了一个二维注意力模块来细化特征，以实现更高效的filtering。我们对表5中的这些组件进行了消融实验。局部自注意力vs.vanilla全局自注意力：ViT[6]中的vanilla自注意力模块可以对tokens执行全局和密集注意力。我们将其与广泛使用的局部窗口自注意力进行了比较。结果表明，由于更好的归纳偏置，局部窗口自注意力在轻量级模型上具有更高的准确性。+全局注意力：我们提出的全局注意力获得显著改善（76.9%∼ 78.0%），超过局部自注意力基线，FLOPs只有轻微增加。+空间注意力。FFN中的空间注意力进一步实现了0.4%的精度提高，计算成本可以忽略不计，因为它显式地捕获空间相关性，并选择性地关注显著tokens，以更好地捕获图像结构通道注意力。我们的最终架构将通道注意力放在LightViT上，实现了78.7%的最佳精度。与我们的局部窗口自注意力基线相比，LightViT-T获得了1.8%的显著改进，是因为其注意力和FFN中配备了更好的特征聚合方案。

商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ... 第27张图片

表5 LightViT-T设置中各个组件的消融研究。

推荐阅读：

ICML2022 | DepthShrinker：一种面向增强实际硬件效率的紧凑型神经网络的新的压缩范式
iPhone12实时运行的ViT | EfficientFormer：以MobileNet的速度运行视觉Transformer
MIT Han Lab | EfficientViT：高分辨率低计算视觉识别的增强线性注意力
旷视孙剑团队自动驾驶应用3D感知统一框架 | PETRv2：多摄像头图像 3D 感知统一框架
苹果超轻量级CNN骨干SOTA | MobileOne：改进的一毫秒移动端骨干网络
ICML2022 | SDQ：混合精度随机可微量化
CVPR2022 第一个多任务模型压缩方法 | DiSparse：用于多任务模型压缩的非纠缠稀疏化
ICML2022 | PAC-Net：归纳迁移学习的模型剪枝方法
TPAMI | RF-Next：卷积神经网络的高效感受野搜索
Yann LeCun掩码自监督学习新作 | 掩码孪生卷积网络
ICML2022 | 线性嫁接：松弛的神经元剪枝有助于可证明的鲁棒性
ACM图灵奖Geoffrey Hinton序列化视觉任务 | 视觉任务的统一序列接口
FAIR&Meta AI | OmniMAE：单模型掩码图像和视频预训练
ICML2022 剪枝对稀疏网络泛化性的研究 | 稀疏双重下降：网络剪枝加剧过拟合
ICML2022 低资源预算预训练模型如何微调 | 预训练模型的零样本AutoML
边缘CNN-Transformer方法，超过苹果MobileViT | EdgeNeXt：用于移动视觉应用的高效融合 CNN-Transformer架构
沈春华&腾讯优图开放词汇目标检测SOTA | 基于proposal挖掘和预测均衡的开放词汇表目标检测
ACM图灵奖获得者Yann LeCun自监督表示学习 | TiCo：自监督视觉表示学习的变换不变性和协方差对比
ICML2022 稀疏训练降低网络复杂度 | 使用任意掩码更好地训练稀疏神经网络
ICML2022 Workshop 剪枝U-Net GAN | 切割内部的层：高效 U-Net GAN 的结构化剪枝策略
MIT Han Lab 极低内存预算下的IoT设备上训练，定义TinyTraining | 256KB内存下的设备上训练
NLP压缩预训练Transformer | 自然语言处理低比特 NxM 稀疏性压缩预训练Transformer
自监督学习提升监督模型迁移性能 | 改善监督模型的泛化性
Ming-Hsuan Yang团队将NAS应用到光流估计任务第一篇工作 | FlowNAS：用于光流估计的神经架构搜索
TPAMI2022 CVPR2019SiamMask续作 | SiamMask：快速在线目标跟踪和分割框架
ECCV2022 改进基于伪边界框的半监督目标检测| Dense Teacher：用于半监督目标检测的密集伪标签
Alexey Bochkovskiy团队YOLOv7 | YOLOv7：可训练的bag-of-freebies为实时目标检测器设置了新的SOTA技术
脉冲神经网络获得与手工设计网络相当的性能 | 脉冲校准：脉冲神经网络的快速准确转换，用于目标检测和分割
ECCV2022 对比学习与网络二值化(量化)结合 | 通过对比学习进行网络二值化
ECCV2022 DeepLab系列作者Liang-Chieh Chen团队全景分割最新SOTA | k-means 掩码Transformer

本账号持续分享边缘计算和轻量化神经网络的知识，有想问的问题欢迎在评论区评论。如果大家觉得分享内容不错，希望大家点赞加关注，谢谢。

上一篇：澳大利亚食品安全真的做的很好吗？比中国好在哪？
下一篇：【英国留学】南安普顿大学VS墨尔本大学｜南安普顿大学与 ...

白金会员	积分	兔币	帖子
白金会员, 积分 3527, 距离下一级还需 1473 积分	3527	1939	1592
在线时间：0 小时	最后登录：2024-2-4

[问答] 商汤&悉尼大学等提出纯Transformer架构轻量级ViT | LightViT ...

关联主题

浙大女学霸卖螺丝刀，雷军“代言”

媒体人给国足算分：10轮11分！很有希望夺第

许家印“得力干将”刘永灼已被刑拘，年薪曾

还原历史真相，日本学者和出版社将出版日军

股东会上董明珠再提退休，争取每年分红但不

国产新型战机无预兆曝光，中俄又一合研项目

年治疗费近20万元的阿尔茨海默药已进药房，

中国女排奥运名单公布，意料之中，主力强大

中国要用统一轨距铁路，直通越南首都腹地？

巴菲特修改遗嘱，透露他死后钱将如何安排

TES沙特杯迎来地狱难度赛程！BLG大概率保送

《怦然4》男五段炼太下头！融入不了集体，

落地25万，现款“奔驰C200L”价格触底，想

马斯克的38岁前妻大婚，和娃娃脸男星喜结连

浙大女学霸卖螺丝刀，雷军“代言”

房地产双轨制，会让穷人买房更加困难

真打疼了？俄罗斯可能开放图们江出海口，中

网友偶遇李健夫妇，孟小蓓发福长胖不少，两

50岁王艳晒照：《还珠》26年，三个女主全翻

日元暴跌！美市场人士担忧：日本政府或再次

董军就台海划红线不到48小时，美27家军火商

TES沙特杯迎来地狱难度赛程！BLG大概率保送

莫迪连任还没等到中国贺电，先收到了中方的

苹果迟迟不入局，折叠屏手机能否成为手机厂

《怦然4》男五段炼太下头！融入不了集体，

诸茅的黄昏

落地25万，现款“奔驰C200L”价格触底，想

马斯克的38岁前妻大婚，和娃娃脸男星喜结连

中国出口回暖

浙大女学霸卖螺丝刀，雷军“代言”

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸