Category: ★····论文

2,719  0

[多模态]Everything at Once

Multi-modal Fusion Transformer for Video Retrieval Abstract 从视频数据中进行多模态学习最近受到了越来越多的关注,因为它允许在没有人工注释的情...

1,734  0

[略读]ObjectBox

From Centers to Boxes for Anchor-Free Object Detection 主要贡献|Keypoints 标签分配|Label Assignment 在三层特征图上预...

2,400  0

[精读]表格问答TAPAS

文献 TAPAS:Weakly Supervised Table Parsing via Pre-training Abatract 通过表格回答自然语言问题通常被视为语义解析任务。为了减轻完整逻辑格...

3,116  2

[精读]DINO

SwAV https://arxiv.org/pdf/2006.09882.pdf DINO https://arxiv.org/pdf/2104.14294.pdf Abstract 无监督图像表示...

2,119  0

[略读]Twins系列

Twins: Revisiting the Design of Spatial Attention in Vision Transformers Conditional Positional Enco...