HAVE FUN! THANKS

70  0

[略读] RouteLLM

https://arxiv.org/pdf/2406.18665 Abstract 大型语言模型(LLM)在广泛任务上表现出色,但选择合适的模型往往需要在性能与成本之间权衡。强大的模型效果更好却更昂贵...

340  0

LLM里程碑(WIP)

名称 发布时间 创新点 关键提升 GPT-3.5 2022/11/30 – 指令微调 (Instruction Fine-Tuning)– 基于人类反馈的强化学习 (RLHF)...

333  0

DeepSeek-V3

Abstract MoE 671B -> 37B Multi-head Latent Attention auxiliary-loss-free strategy a multi-token p...

2,449  0

初探Sora笔记

网络结构分析 visual patches 支持各种尺寸、各种分辨率、各种长度的视频作为输入:https://arxiv.org/abs/2307.06304 视频降维 最大输入1920×1...

1,802  0

[略读] MMT

Multi-modal Transformer for Video Retrieval 任务 标题到视频和视频到标题检索 贡献 联合编码不同的视频模态(视频帧、ASR、音频) 对时间信息进行编码和建模...

1,896  0

[略读]Emu2

Generative Multimodal Models are In-Context Learners Abstract 人类能够(仅需少量演示或简单指示即可)轻松解决多模态任务的能力,是当前多模态...