[略读]Align before Fuse
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 背景 VLP(Vis...
[略读]Twins系列
Twins: Revisiting the Design of Spatial Attention in Vision Transformers Conditional Positional Enco...
[略读]Swin-Transformer
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 主要贡献: Patch Merging Layer Sh...
[翻译]Pyramid Vision Transformer
A Versatile Backbone for Dense Prediction without Convolutions Abstract 尽管使用CNN作为骨干网络的结构在视觉领域取得巨大成功,...
[翻译]See Better Before Looking Closer
See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visua...
[翻译]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Abstract 尽管Transformer结构在自然语言处理领域已经成为主流,但在计算机视觉领域仍然受到限制。在视觉领域,注意力结构要么和卷积网络一起应用,要么在保证总结构不变的情况下用于替换卷网络...
[略读]mixup: BEYOND EMPIRICAL RISK MINIMIZATION
Abstract 深度神经网络功能强大,但是存在一些不良行为例如记忆性和对对抗样本的敏感性。(it:关注点偏移,趋向简单规则+对异常分布敏感)Mixup给神经网络增加了正则信息,使网络在训练样本中和训...
[略读]LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION
INTRODUCTION 本文关注移动设备上的推理加速,即Mult-Adds限制在500M以下。 首先,本能想法是减少embedding的尺寸,但会弱化模型捕捉长短距离关系的能力,导致性能下降; 然后...