名称 | 发布时间 | 创新点 | 关键提升 |
GPT-3.5 | 2022/11/30 | – 指令微调 (Instruction Fine-Tuning) – 基于人类反馈的强化学习 (RLHF) | 实现了流畅、连贯且能联系上下文的多轮对话,开启了对话式AI的新时代 |
GPT-4 | 2023/3 | – 多模态能力 (Multimodality) – 性能大幅提升:在多种专业和学术基准测试中表现出接近甚至超越人类的水平 | 对复杂问题和细微指令的理解能力显著增强 |
文心一言 | 2023/3 | 具备跨模态、跨语言的深度语义理解与生成能力 | |
LLaMA | 2023/3 | ||
通义千问 | 2023/4 | ||
Google PaLM 2 | 2023/5/10 | – 多语言能力:在超过100种语言的大规模多语言文本上进行训练 – 模型家族化:推出了从轻量级 (Gecko) 到重量级 (Unicorn) 的四种不同尺寸模型 | |
Meta Llama 2 | 2023/7/18 | ||
Mistral Mixtral 8x7B | 2023/12 | – 稀疏专家混合网络 (Sparse Mixture-of-Experts, MoE) – 分组查询注意力 (GQA) | 推理效率大幅提升 |
Gemini | 2023/12 | – 原生多模态联合训练 – 超长上下文窗口 100万token – MoE架构 | 超长Prompt处理 |
DeepSeek LLM | 2024/1/5 | – 基于Transformer架构,验证架构和Scaling Law。 – 采用分组查询注意力(GQA)优化推理成本。 | 训练速度+20% |
DeepSeek MoE | 2024/1/11 | – 提出DeepSeekMoE,细粒度专家分割和共享专家隔离策略 – 更灵活的专家组合提升模型性能,同时保持计算成本不变。 | 训练成本降低71.5% |
Anthropic Claude 3 | 2024/3/4 | – “大海捞针”测试:在长文本中精准回忆信息的能力接近完美 | |
DeepSeek Math | 2024/4/27 | – 提出PPO的变体GRPO,用于数学领域的推理,效果显著。 | Math基准测试51.7%,接近GPT4 |
2024/5 | – DPO | 避免了RLHF中奖励模型拟合不足和强化学习训练不稳定的问题 | |
GPT-4o | 2024/5/13 | ||
DeepSeek V2 | 2024/6/19 | – 引入MLA,进一步降低训练成本和显存消耗。 – GRPO,提升推理能力。 | 推理吞吐量提升5.76倍 |
o1 | 2024/9/12 | – 反思和思考 | 模型能自主进行详细的步骤分解;在数学、科学和编程等需要深度推理的任务上性能极大提升 |
DeepSeek V3 | 2024/12/27 | – 无辅助损失的负载均衡策略。 – 多令牌预测(MTP)训练目标。 – FP8混合精度训练,显著降低训练成本。 – DualPipe重叠计算和通信。 – 从R1 Zero蒸馏推理能力。 | 专家利用率+24% |
LLaMA 3.1 | 2024/12 | – 扩展上下文:128K – 多语言 | 开源SOTA模型 |
DeepSeek R1 | 2025/1/22 | – 基于DeepSeek-V3-Base – 通过强化学习(RL)提升推理能力,引入冷启动数据和多阶段训练流程。 | 综合任务得分+15% |
Janus-Pro | 2025/1/27 | – 解耦视觉编码路径,实现了多模态理解与生成的高效融合。 | |
Qwen2.5-Omni | 2025/3/27 | 统一的端到端多模态模型,能处理文本、图像、音视频输入 | |
gpt-oss | 2025/8/5 | OpenAI发布开源权重模型 |
2025年8月7日