Category: ★····论文

1,970  0

[略读] MMT

Multi-modal Transformer for Video Retrieval 任务 标题到视频和视频到标题检索 贡献 联合编码不同的视频模态(视频帧、ASR、音频) 对时间信息进行编码和建模...

2,090  0

[略读]Emu2

Generative Multimodal Models are In-Context Learners Abstract 人类能够(仅需少量演示或简单指示即可)轻松解决多模态任务的能力,是当前多模态...

2,012  0

[略读]Big Bird: Transformers for Longer Sequences

Abstract 基于Transformer的模型,例如BERT,已成为自然语言处理中最成功的深度学习模型之一。不幸的是,它有一个核心限制是全局注意力机制对序列长度具有二次方的依赖性(主要是在显存方面...

1,692  0

[精读]CLIP

Learning Transferable Visual Models From Natural Language Supervision https://github.com/OpenAI/CLIP...

3,610  0

[精读]SSCD

《A Self-Supervised Descriptor for Image Copy Detection》from Meta AI Abstract 图像复制检测是内容审核的一项重要任务。我们引入...

2,517  0

[多模态]Everything at Once

Multi-modal Fusion Transformer for Video Retrieval Abstract 从视频数据中进行多模态学习最近受到了越来越多的关注,因为它允许在没有人工注释的情...