975 0
[略读]FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS
ABSTRACT 本文揭示了大型语言模型(LLMs)尽管仅在文本数据上进行训练,但在没有语言的情况下,它们仍然是纯视觉任务的强大编码器。更有趣的是,这可以通过一种简单但以前被忽视的策略实现 ̵...
1,306 0
[略读]Twins系列
Twins: Revisiting the Design of Spatial Attention in Vision Transformers Conditional Positional Enco...
5,281 1
[略读]Swin-Transformer
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 主要贡献: Patch Merging Layer Sh...
1,520 0
[翻译]Pyramid Vision Transformer
A Versatile Backbone for Dense Prediction without Convolutions Abstract 尽管使用CNN作为骨干网络的结构在视觉领域取得巨大成功,...