❤····深度学习 – 我家Ai智障

18

2月

2024

2,110 0

初探Sora笔记

网络结构分析 visual patches 支持各种尺寸、各种分辨率、各种长度的视频作为输入：https://arxiv.org/abs/2307.06304 视频降维最大输入1920×1...

18

2月

2023

2,911 0

[精读]SSCD

《A Self-Supervised Descriptor for Image Copy Detection》from Meta AI Abstract 图像复制检测是内容审核的一项重要任务。我们引入...

23

9月

2021

3,130 0

[略读]Align before Fuse

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 背景 VLP（Vis...

12

5月

2021

1,724 0

[略读]Twins系列

Twins: Revisiting the Design of Spatial Attention in Vision Transformers Conditional Positional Enco...

10

5月

2021

6,298 1

[略读]Swin-Transformer

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 主要贡献： Patch Merging Layer Sh...

20

4月

2021

1,868 0

[翻译]Pyramid Vision Transformer

A Versatile Backbone for Dense Prediction without Convolutions Abstract 尽管使用CNN作为骨干网络的结构在视觉领域取得巨大成功，...

05

2月

2021

1,826 0

[翻译]See Better Before Looking Closer

See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visua...

25

1月

2021

4,509 0

[翻译]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract 尽管Transformer结构在自然语言处理领域已经成为主流，但在计算机视觉领域仍然受到限制。在视觉领域，注意力结构要么和卷积网络一起应用，要么在保证总结构不变的情况下用于替换卷网络...

30

12月

2020

1,797 0

[略读]mixup: BEYOND EMPIRICAL RISK MINIMIZATION

Abstract 深度神经网络功能强大，但是存在一些不良行为例如记忆性和对对抗样本的敏感性。（it：关注点偏移，趋向简单规则+对异常分布敏感）Mixup给神经网络增加了正则信息，使网络在训练样本中和训...

26

11月

2020

1,686 0

[略读]LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

INTRODUCTION 本文关注移动设备上的推理加速，即Mult-Adds限制在500M以下。首先，本能想法是减少embedding的尺寸，但会弱化模型捕捉长短距离关系的能力，导致性能下降；然后...

Category: ❤····深度学习