1,066 0
[略读]FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS
ABSTRACT 本文揭示了大型语言模型(LLMs)尽管仅在文本数据上进行训练,但在没有语言的情况下,它们仍然是纯视觉任务的强大编码器。更有趣的是,这可以通过一种简单但以前被忽视的策略实现 ̵...
931 0
[瞎读]VISION-LANGUAGE INTEGRATION IN MULTIMODAL VIDEO TRANSFORMERS (PARTIALLY) ALIGNS WITH THE BRAIN
视觉-语言融合在多模态视频Transformer中与部分大脑一致 ABSTRACT 整合来自多种模态的信息可以说是使人工智能系统具有对真实世界的理解的基本先决条件之一。最近,视频Transformer...
1,349 0
[略读]Twins系列
Twins: Revisiting the Design of Spatial Attention in Vision Transformers Conditional Positional Enco...
5,380 1
[略读]Swin-Transformer
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 主要贡献: Patch Merging Layer Sh...
1,561 0
[翻译]Pyramid Vision Transformer
A Versatile Backbone for Dense Prediction without Convolutions Abstract 尽管使用CNN作为骨干网络的结构在视觉领域取得巨大成功,...
4,094 0
[翻译]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Abstract 尽管Transformer结构在自然语言处理领域已经成为主流,但在计算机视觉领域仍然受到限制。在视觉领域,注意力结构要么和卷积网络一起应用,要么在保证总结构不变的情况下用于替换卷网络...