我家Ai智障 – 第 2 页 – Keep learning . Never idleness

20

11月

2023

1,697 0

[瞎读]VISION-LANGUAGE INTEGRATION IN MULTIMODAL VIDEO TRANSFORMERS (PARTIALLY) ALIGNS WITH THE BRAIN

视觉-语言融合在多模态视频Transformer中与部分大脑一致 ABSTRACT 整合来自多种模态的信息可以说是使人工智能系统具有对真实世界的理解的基本先决条件之一。最近，视频Transformer...

20

11月

2023

1,862 0

[略读]Big Bird: Transformers for Longer Sequences

Abstract 基于Transformer的模型，例如BERT，已成为自然语言处理中最成功的深度学习模型之一。不幸的是，它有一个核心限制是全局注意力机制对序列长度具有二次方的依赖性（主要是在显存方面...

17

11月

2023

1,584 0

[精读]CLIP

Learning Transferable Visual Models From Natural Language Supervision https://github.com/OpenAI/CLIP...

06

11月

2023

1,464 0

[精读]What Matters in Training a GPT4-Style LanguageModel with Multimodal Inputs?

Abstract 最近大型语言模型（LLMs）的进展，如GPT4，在遵循给定图像的开放式指令方面展示了出色的多模态能力。然而，这些模型的性能严重依赖于设计选择，如网络结构、训练数据和训练策略，而这些选...

19

4月

2023

1,943 0

python3 多线程任务封装

19

2月

2023

2,021 0

[略读]The benefit of PCA and whitening

Negative evidences and co-occurrences in image retrieval: the benefit of PCA and whitening Abstract ...

18

2月

2023

3,322 0

[精读]SSCD

《A Self-Supervised Descriptor for Image Copy Detection》from Meta AI Abstract 图像复制检测是内容审核的一项重要任务。我们引入...

30

9月

2022

2,329 0

[多模态]Everything at Once

Multi-modal Fusion Transformer for Video Retrieval Abstract 从视频数据中进行多模态学习最近受到了越来越多的关注，因为它允许在没有人工注释的情...

28

9月

2022

1,514 0

Ubuntu20.04

grub https://blog.csdn.net/seaship/article/details/96427401 Nvidia Driver https://blog.csdn.net/z_6_...

22

8月

2022

1,520 0

[略读]ObjectBox

From Centers to Boxes for Anchor-Free Object Detection 主要贡献｜Keypoints 标签分配｜Label Assignment 在三层特征图上预...

HAVE FUN! THANKS