★····论文 – 我家Ai智障

07

8月

2025

496 0

DeepSeek-V3

Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...

18

2月

2024

2,580 0

初探Sora笔记

网络结构分析 visual patches 支持各种尺寸、各种分辨率、各种长度的视频作为输入：https://arxiv.org/abs/2307.06304 视频降维最大输入1920×1...

17

1月

2024

2,488 0

[转载]ZLPR: A NOVEL LOSS FOR MULTI-LABEL CLASSIFICATION

为防失效，转载原文，来自 https://kexue.fm/archives/9064 多标签分类问题的统一loss，能媲美精调权重下的二分类方案，这个损失函数有着单标签分类中“Softmax+交叉熵...

09

1月

2024

1,921 0

[略读] MMT

Multi-modal Transformer for Video Retrieval 任务标题到视频和视频到标题检索贡献联合编码不同的视频模态（视频帧、ASR、音频）对时间信息进行编码和建模...

27

12月

2023

2,052 0

[略读]Emu2

Generative Multimodal Models are In-Context Learners Abstract 人类能够（仅需少量演示或简单指示即可）轻松解决多模态任务的能力，是当前多模态...

24

11月

2023

2,213 0

[略读]FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS

ABSTRACT 本文揭示了大型语言模型（LLMs）尽管仅在文本数据上进行训练，但在没有语言的情况下，它们仍然是纯视觉任务的强大编码器。更有趣的是，这可以通过一种简单但以前被忽视的策略实现 &#821...

20

11月

2023

1,755 0

[瞎读]VISION-LANGUAGE INTEGRATION IN MULTIMODAL VIDEO TRANSFORMERS (PARTIALLY) ALIGNS WITH THE BRAIN

视觉-语言融合在多模态视频Transformer中与部分大脑一致 ABSTRACT 整合来自多种模态的信息可以说是使人工智能系统具有对真实世界的理解的基本先决条件之一。最近，视频Transformer...

20

11月

2023

1,967 0

[略读]Big Bird: Transformers for Longer Sequences

Abstract 基于Transformer的模型，例如BERT，已成为自然语言处理中最成功的深度学习模型之一。不幸的是，它有一个核心限制是全局注意力机制对序列长度具有二次方的依赖性（主要是在显存方面...

17

11月

2023

1,659 0

[精读]CLIP

Learning Transferable Visual Models From Natural Language Supervision https://github.com/OpenAI/CLIP...

06

11月

2023

1,548 0

[精读]What Matters in Training a GPT4-Style LanguageModel with Multimodal Inputs?

Abstract 最近大型语言模型（LLMs）的进展，如GPT4，在遵循给定图像的开放式指令方面展示了出色的多模态能力。然而，这些模型的性能严重依赖于设计选择，如网络结构、训练数据和训练策略，而这些选...

Category: ★····论文