DeepSeek-V3
Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...
Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...
为防失效,转载原文,来自 https://kexue.fm/archives/9064 多标签分类问题的统一loss,能媲美精调权重下的二分类方案,这个损失函数有着单标签分类中“Softmax+交叉熵...
ABSTRACT 本文揭示了大型语言模型(LLMs)尽管仅在文本数据上进行训练,但在没有语言的情况下,它们仍然是纯视觉任务的强大编码器。更有趣的是,这可以通过一种简单但以前被忽视的策略实现 ̵...
视觉-语言融合在多模态视频Transformer中与部分大脑一致 ABSTRACT 整合来自多种模态的信息可以说是使人工智能系统具有对真实世界的理解的基本先决条件之一。最近,视频Transformer...
Abstract 基于Transformer的模型,例如BERT,已成为自然语言处理中最成功的深度学习模型之一。不幸的是,它有一个核心限制是全局注意力机制对序列长度具有二次方的依赖性(主要是在显存方面...
Abstract 最近大型语言模型(LLMs)的进展,如GPT4,在遵循给定图像的开放式指令方面展示了出色的多模态能力。然而,这些模型的性能严重依赖于设计选择,如网络结构、训练数据和训练策略,而这些选...